发布于 2023-09-12
摘要
标题中的解决打了引号,因为本文提供的思路只适用于某些情况。 起因 最近 huggingface 连接超时的情况越来越频繁,但之前也 …
标题中的解决打了引号,因为本文提供的思路只适用于某些情况。 起因 最近 huggingface 连接超时的情况越来越频繁,但之前也 …
简单记录下这次任务中的一些心得 关于并行 DDP 只做了数据并行,而 FSDP 有不同策略,可以在数据并行之外,做到优化器、梯度和 …
安装 方便起见,将项目迁移到自己的 git 平台。 环境准备 为了不影响服务器上其他用户,采用源码安装到用户目录下。 GCC 参考 …
参考视频:https://www.bilibili.com/video/BV1yu411L7JN/ 仓库:https://gith …
论文: Attention is all you need 视频: https://www.youtube.com/watch?v …
参考链接 介绍文章: https://mp.weixin.qq.com/s/lPhi76_Aa0Ky4-qu5HTmrQ Rep …
原文:深度学习中的注意力模型 注意力机制的“起源”——人类的视觉注意力机制,优先将有限的注意力分配到更需要关注的地方,以快速获取更 …
原文:通向AGI之路:大型语言模型(LLM)技术精要 潮流之巅:NLP研究范式的转换 范式转换1.0:从深度学习到两阶段预训练模型 …
原文:乘风破浪的PTM:两年来预训练模型的技术进展 在Transformer作为特征抽取器基础上,选定合适的模型结构,通过某种自监 …
原文:从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 预训练 概念 对于一类任务(e.g. 图像、 …