post_img

从微调 InternLM 中学到的

摘要

简单记录下这次任务中的一些心得 关于并行 DDP 只做了数据并行,而 FSDP 有不同策略,可以在数据并行之外,做到优化器、梯度和 …

post_img

LLM 基础知识系列 4

摘要

原文:深度学习中的注意力模型 注意力机制的“起源”——人类的视觉注意力机制,优先将有限的注意力分配到更需要关注的地方,以快速获取更 …

post_img

LLM 基础知识系列 3

摘要

原文:通向AGI之路:大型语言模型(LLM)技术精要 潮流之巅:NLP研究范式的转换 范式转换1.0:从深度学习到两阶段预训练模型 …

post_img

LLM 基础知识系列 2

摘要

原文:乘风破浪的PTM:两年来预训练模型的技术进展 在Transformer作为特征抽取器基础上,选定合适的模型结构,通过某种自监 …

post_img

LLM 基础知识系列 1

摘要

原文:从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 预训练 概念 对于一类任务(e.g. 图像、 …