#机器学习

共 3 篇文章

从 MiniMind 的代码出发，解释 attention 拿到上下文之后，MLP 为什么还要再做一层加工，激活函数和 SwiGLU 的设计逻辑，以及为什么这条路会自然通向 MoE。

这篇文章不讲大段公式，而是顺着 MiniMind 的 Attention.forward 往下读，把几个最容易散掉的点重新接起来：Q / K / V 分别在做什么，shape 为什么会一路变化，当前位置又是怎么把整段上下文真正融合进来的。

这篇文章不展开复杂公式，只整理一条最基本的训练主线：语料如何变成 input_ids，hidden_states 如何变成 logits，最后又怎么得到 loss，同时梳理了 Pretraining、SFT 和 DPO 在训练什么。