2023 年第 7 周总结

发布于 2023-02-13  94 次阅读


学习情况

  • 通过 cs224n lecture 9 进一步学习了 注意力机制,single-headed 和 multi-headed attention 的优劣,以及初步的 transformer 模型。
  • 通过 cs224n lecture 10 学习了预训练的理念、基本思想以及在NLP中的应用方法。
  • 通过 assignment 5 从数学证明角度了解了 single-headed 和 multi-headed attention 的区别。并学习了简单的 GPT 模型代码。

笔记

周赛情况

半小时做出了 Q1 和 Q3 ,再用四十分钟做出了 Q2 ,WA 4 次,最终计时 93 分钟,排名 862 。

其实 Q2 也没难到哪里去,但是我对单调性的嗅觉还不够灵敏,用了比较多的时间才想出如何利用它。