#大模型 #nlp #信息论 LLM¶ 约 103 个字 预计阅读时间 1 分钟 共被读过 次 tiny-llm 自己手撕复现的deepseek稀疏注意力nsa 大模型理论基础 动手学大模型 大语言模型概念 最小熵原理(六):词向量的维度应该怎么选择? - 科学空间|Scientific Spaces Github上一个面向开发者的大模型手册 LLM-Action 根据最小熵原理分析 transformer 中的词向量维度应该怎么选取,苏神写的