#大模型 #nlp #信息论 LLM¶ 约 167 个字 预计阅读时间 1 分钟 共被读过 次 漫谈 LLM 解码策略:采样策略(贪心解码、随机采样、Top-K 采样、Top-P 采样、核采样)和搜索策略( Beam Search) - 姚远的文章 - 知乎 Pytorch从零手敲大模型,架构到训练全教程 LLM训练-pretrain - ybq的文章 - 知乎 tiny-llm 自己手撕复现的deepseek稀疏注意力nsa 大模型理论基础 动手学大模型 大语言模型概念 最小熵原理(六):词向量的维度应该怎么选择? - 科学空间|Scientific Spaces Github上一个面向开发者的大模型手册 LLM-Action 根据最小熵原理分析 transformer 中的词向量维度应该怎么选取