LLM¶
约 113 个字 预计阅读时间 1 分钟 共被读过 次
- LLM训练-pretrain - ybq的文章 - 知乎
- tiny-llm
- 自己手撕复现的deepseek稀疏注意力nsa
- 大模型理论基础
- 动手学大模型
- 大语言模型概念
- 最小熵原理(六):词向量的维度应该怎么选择? - 科学空间|Scientific Spaces
- Github上一个面向开发者的大模型手册
- LLM-Action
- 根据最小熵原理分析 transformer 中的词向量维度应该怎么选取,苏神写的
约 113 个字 预计阅读时间 1 分钟 共被读过 次