kaiyun sports Karpathy开源“AI盘考员”，630行代码让智能体彻夜真金不怕火模子

发布日期：2026-03-09 12:48 点击次数：166

要是你有一块 NVIDIA GPU，睡前启动一个剧本，第二天早上醒来就能成绩一百次 LLM 测验执行的效果，其中一部分还照实比你手动调参调得更好，是不是听起来有些难以置信？

但这等于 Andrej Karpathy 今天凌晨开源的新方法 autoresearch 所作念的事。方法上线不到几个小时，他在 X（原 Twitter）上的发布帖浏览量梗阻百万，GitHub 仓库赶紧成绩跨越 2，500 颗星。通盘仓库的中枢代码唯有约 630 行 Python。

{jz:field.toptypename/}

autoresearch 作念的事情，一句话就能说清：把一个简化过的诳言语模子测验环境交给 AI 智能体（AI Agent），让它在你休眠的时候自主跑执行。智能体修改代码，启动测验，五分钟后查验效果，要是考据蚀本缩小了就保留转变，没缩小就回退，然后不竭下一轮。你早上醒来，眼前是一串执行日记，和一个可能变好了的模子。

昔日几年里，Karpathy 开源了一系列以极简宗旨著称的方法：2020 年的 micrograd 和 minGPT，2023 年的 nanoGPT，2024 年用纯 C 和 CUDA 写的 llm.c，2025 年障翳 LLM 全经过的 nanochat，以及 2026 年 2 月阿谁仅用 243 行纯 Python、零外部依赖兑现 GPT 测验和推理的 microgpt。每一次迭代王人在作念祛除件事，剥除概述层，把复杂系统压缩到东谈主类不错在一杯咖啡时辰里读完的代码量。

autoresearch 延续了这条陈迹，仅仅这一次，它不再是给东谈主看的教悔器具，而是给 AI 用的执行平台。

通盘仓库唯有三个中枢文献。prepare.py 讲求下载测验数据和测验一个 BPE（Byte Pair Encoding，字节对编码）分词器，这个文献是固定的，智能体不可动。

train.py 是约 630 行的测验剧本，包含齐全的 GPT 模子界说、优化器（方法使用了 Muon 和 AdamW 的组合）和测验轮回，这是智能体独一不错裁剪的文献，模子架构、超参数、批大小、学习率，通盘东西王人不错改。

program.md 是一个 Markdown 文献，充任给智能体的教导手册，由东谈主类编写和迭代。这里的中枢联想形而上学是：东谈主类编写设备智能体行径的\"元设施\"，智能体讲求编写和修改骨子的测验代码。

测验的时辰预算被硬性固定为 5 分钟墙钟时辰（wall clock time），不论你的硬件建立何如。这个联想聘用有两个刚正：

第一，不同执行之间的效果不错径直相比，不论智能体把模子改大了照旧改小了；第二，autoresearch 会为你的特定硬件找到 5 分钟内能达到的最优建立。代价是不同东谈主在不同 GPU 上获取的效果无法相互对照。评估量划是 val_bpb（validation bits per byte，开云sports考据集上的每字节比特数），越低越好，且与词表大小无关，这么即便智能体改变了分词决议，执行效果也能公正对比。

按照这个节拍，每小时不错跑简略 12 个执行，一整夜简略 100 个执行。Karpathy 在 README 里附了一张图：83 次执行中保留了 15 次调动，考据蚀本从接近 1.000 冉冉下落到 0.975 近邻。图上每个点是一次齐全的测验运行，绿色点暗示被招揽的转变，灰色点是被丢弃的。

你不错看到智能体尝试了多样种种的计谋，颐养 batch 大小、修改学习率退换、切换激活函数、引入余弦衰减等，有些管用，大大王人没用，但举座趋势是抓续向下的。

autoresearch 的测验代码开端于 Karpathy 在 2025 年发布的 nanochat 方法的简化版。nanochat 是一个障翳 LLM 全栈的执行框架，从分词到预测验、微调、评估、推理到聊天界面一起包含在内，联想标的是在 8 块 H100 GPU 组成的单节点上跑富足经过。

据 Karpathy 公布的数据，用 nanochat 测验一个 GPT-2 级别才调的模子简略需要破耗 48 好意思元（约 2 小时的 8×H100 节点），而 2019 年 GPT-2 的测验老本约为 43，000 好意思元（nanochat GitHub，2025）。autoresearch 把 nanochat 进一步精简到单 GPU 环境，砍掉了散播式测验、复杂建立和多阶段活水线，只留住一个能跑、能改、能相比的最小单位。

智能体在一个 git 分支上责任。每当它找到一个更好的建立，就提交一个 commit。你不错在 git log 里看到齐全的执行演化史。这种联想让通盘转变王人是可审查和可回滚的，同期也组成了一份自然的盘考日记。Karpathy 提出使用 Claude Code 或 OpenAI Codex 这类代码智能体来驱动执行轮回，况兼把通盘权限关掉，智能体只需要读写 train.py 和实施测验敕令的才调。

不外，这个方法现在只撑抓 NVIDIA GPU，测试环境是 H100。Karpathy 在 README 中坦承：撑抓 CPU、MPS（Apple Silicon）或其他平台在时间上富足可行，但会让代码膨大，而他不确信我方是否昂然在这个方朝上干涉元气心灵。他更倾向于让社区来作念 fork 和适配。

其实 AI 科研系统也并不算簇新，但 autoresearch 和那些企业级或科研级系统之间有一个紧迫的分歧：它是刻意作念小的。Karpathy 莫得搭建一个多智能体编排框架，莫得联想复杂的通讯公约，莫得引入什么追究模块或检索增强生成（Retrieval-Augmented Generation， RAG）管线。他作念的事情和昔日六年作念的事情相通，把一个看法压缩到你能在周末下昼读完并跑起来的鸿沟。一块 GPU，一个文献，一个轮回。

README 顶部有一段捏造的引子，莽撞是：异日 AI 盘考富足由自主智能体集群在天外中的盘算推算集群上完成，代码库一经履历了 10，205 次迭代，酿成了一个非常东谈主类交融的自修改二进制设施，莫得东谈主能考据智能体对版块号的说法是否正确。Karpathy 标注的日历是 2026 年 3 月，然后附言：这个方法讲的是这一切是何如开动的。

参考贵府：

1. https://x.com/karpathy/status/2030371219518931079

2. https://github.com/karpathy/autoresearch