TODO List Pre for Graduated Life
Part 1 Python进阶
- Numpy, Pandas, Matplotlib掌握
Part 2 深度学习框架
- 跑通几个标准训练循环(前向传播、计算损失、反向传播、优化器更新)
- 理解张量(Tensor)操作、自动求导机制、Dataset/DataLoader构建
Part 3 传统深度学习网络
- 多层感知机(MLP):理解前馈神经网络。
- 循环神经网络(RNN/LSTM/GRU):处理序列数据的鼻祖。
- 卷积神经网络(CNN):虽然主要用于图像,但在文本分类(如TextCNN)和图像文本检测中仍有应用。
Part 4 词向量与特征表示
- 了解 Word2Vec, GloVe 等静态词向量
- 理解文本的分布式表示(Semantic Representation)
Part 5 序列标注与文本分类
- 序列标注(Sequence Labeling): CRF(条件随机场)、BiLSTM-CRF模型。这是命名实体识别(NER)、分词的基础。
- 文本分类(Text Classification):掌握基础的分类模型,了解导师论文中提到的原型网络(Prototypical Networks)。
Part 6 注意力机制与大模型
- Transformer 架构:深入啃透 Self-Attention 机制,这是目前NLP的基石
- 预训练语言模型(PLMs):熟练使用 HuggingFace transformers 库,掌握 BERT, RoBERTa 的微调(Fine-tuning)
- 提示学习(Prompt-learning):近两年的绝对热点,需重点学习