从 MiniMind 出发:Attention 拿到上下文之后,MLP 还在做什么
从 MiniMind 的代码出发,解释 attention 拿到上下文之后,MLP 为什么还要再做一层加工,激活函数和 SwiGLU 的设计逻辑,以及为什么这条路会自然通向 MoE。
17 分钟
AI 机器学习
从 minimind 出发:Attention 是在做什么
这篇文章不讲大段公式,而是顺着 MiniMind 的 Attention.forward 往下读,把几个最容易散掉的点重新接起来:Q / K / V 分别在做什么,shape 为什么会一路变化,当前位置又是怎么把整段上下文真正融合进来的。
21 分钟
AI 机器学习
从 minimind 出发:LLM 训练代码最小闭环到底在做什么
这篇文章不展开复杂公式,只整理一条最基本的训练主线:语料如何变成 input_ids,hidden_states 如何变成 logits,最后又怎么得到 loss,同时梳理了 Pretraining、SFT 和 DPO 在训练什么。
16 分钟
AI 机器学习