NLP – 星黎殿

发布于 2023-09-12

388 热度无~ 疑难杂症

利用 google colab “解决”huggingface 的连接问题

摘要

标题中的解决打了引号，因为本文提供的思路只适用于某些情况。起因最近 huggingface 连接超时的情况越来越频繁，但之前也 …

发布于 2023-07-28

324 热度无~ 笔记

从微调 InternLM 中学到的

摘要

简单记录下这次任务中的一些心得关于并行 DDP 只做了数据并行，而 FSDP 有不同策略，可以在数据并行之外，做到优化器、梯度和 …

发布于 2023-07-26

307 热度无~ 笔记

LLM 微调——InternLM（非 transformers）

摘要

安装方便起见，将项目迁移到自己的 git 平台。环境准备为了不影响服务器上其他用户，采用源码安装到用户目录下。 GCC 参考 …

发布于 2023-07-20

323 热度无~ 笔记

微调 LLM——以 Baichuan-7B 为例

摘要

参考视频：https://www.bilibili.com/video/BV1yu411L7JN/ 仓库：https://gith …

发布于 2023-07-10

495 热度无~ Code

Pytorch Transformers from Scratch

摘要

论文： Attention is all you need 视频： https://www.youtube.com/watch?v …

发布于 2023-07-04

321 热度无~ 笔记

伯克利开源LLM推理与服务库：vLLM

摘要

参考链接介绍文章： https://mp.weixin.qq.com/s/lPhi76_Aa0Ky4-qu5HTmrQ Rep …

发布于 2023-07-01

306 热度无~ 笔记

LLM 基础知识系列 4

摘要

原文：深度学习中的注意力模型注意力机制的“起源”——人类的视觉注意力机制，优先将有限的注意力分配到更需要关注的地方，以快速获取更 …

发布于 2023-06-08

303 热度无~ 笔记

LLM 基础知识系列 3

摘要

原文：通向AGI之路：大型语言模型（LLM）技术精要潮流之巅：NLP研究范式的转换范式转换1.0:从深度学习到两阶段预训练模型 …

发布于 2023-05-21

323 热度无~ 笔记

LLM 基础知识系列 2

摘要

原文：乘风破浪的PTM：两年来预训练模型的技术进展在Transformer作为特征抽取器基础上，选定合适的模型结构，通过某种自监 …

发布于 2023-05-15

313 热度无~ 笔记

LLM 基础知识系列 1

摘要

原文：从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史预训练概念对于一类任务（e.g. 图像、 …