所有标签

#机器学习

共 5 篇文章

Karpathy's AutoResearch 解读:AI 驱动的自动化 ML 实验循环

26 分钟

AutoResearch 是一个自我驱动的 ML 实验框架,AI 智能体自主写代码、跑训练、看数字、决定下一步,整个过程无人值守。凌晨两点那条不肯下降的训练曲线,可能很快就能交给 AI 去折磨了。

AI 机器学习 翻译

从 MiniMind 出发:一个 token 进入 MoE 之后发生了什么?

16 分钟

一个 token 如何被 router 打分、分配到 top-k expert、最后被加权合并——Top-K 路由与负载均衡的设计逻辑,以及训练与推理路径的差异。

AI 机器学习

从 MiniMind 出发:Attention 拿到上下文之后,MLP 还在做什么

17 分钟

Attention 把上下文聚合回来之后,MLP 为什么还要再加工一次?SwiGLU 激活函数的设计逻辑,以及它如何自然地引向了 MoE 的路由机制。

AI 机器学习

从 MiniMind 出发:Attention 注意力机制到底在计算什么

21 分钟

Q / K / V 各负责什么,shape 为什么一路变化,多头注意力各自看到了什么,KV Cache 解决了什么问题——顺着 Attention.forward 把这些点真正接起来。

AI 机器学习

从 MiniMind 出发:LLM 训练代码最小闭环到底在做什么

16 分钟

语料如何变成 input_ids,hidden_states 如何流成 logits,最终又如何得到 loss——Pretraining、SFT、DPO 三阶段分别在做这件事的哪个环节。

AI 机器学习