kaiyun sports Karpathy开源“AI盘考员”,630行代码让智能体彻夜真金不怕火模子
发布日期:2026-03-09 12:48 点击次数:161
要是你有一块 NVIDIA GPU,睡前启动一个剧本,第二天早上醒来就能成绩一百次 LLM 测验执行的效果,其中一部分还照实比你手动调参调得更好,是不是听起来有些难以置信?
但这等于 Andrej Karpathy 今天凌晨开源的新方法 autoresearch 所作念的事。方法上线不到几个小时,他在 X(原 Twitter)上的发布帖浏览量梗阻百万,GitHub 仓库赶紧成绩跨越 2,500 颗星。通盘仓库的中枢代码唯有约 630 行 Python。
{jz:field.toptypename/}
autoresearch 作念的事情,一句话就能说清:把一个简化过的诳言语模子测验环境交给 AI 智能体(AI Agent),让它在你休眠的时候自主跑执行。智能体修改代码,启动测验,五分钟后查验效果,要是考据蚀本缩小了就保留转变,没缩小就回退,然后不竭下一轮。你早上醒来,眼前是一串执行日记,和一个可能变好了的模子。
昔日几年里,Karpathy 开源了一系列以极简宗旨著称的方法:2020 年的 micrograd 和 minGPT,2023 年的 nanoGPT,2024 年用纯 C 和 CUDA 写的 llm.c,2025 年障翳 LLM 全经过的 nanochat,以及 2026 年 2 月阿谁仅用 243 行纯 Python、零外部依赖兑现 GPT 测验和推理的 microgpt。每一次迭代王人在作念祛除件事,剥除概述层,把复杂系统压缩到东谈主类不错在一杯咖啡时辰里读完的代码量。
autoresearch 延续了这条陈迹,仅仅这一次,它不再是给东谈主看的教悔器具,而是给 AI 用的执行平台。
通盘仓库唯有三个中枢文献。prepare.py 讲求下载测验数据和测验一个 BPE(Byte Pair Encoding,字节对编码)分词器,这个文献是固定的,智能体不可动。
train.py 是约 630 行的测验剧本,包含齐全的 GPT 模子界说、优化器(方法使用了 Muon 和 AdamW 的组合)和测验轮回,这是智能体独一不错裁剪的文献,模子架构、超参数、批大小、学习率,通盘东西王人不错改。
program.md 是一个 Markdown 文献,充任给智能体的教导手册,由东谈主类编写和迭代。这里的中枢联想形而上学是:东谈主类编写设备智能体行径的\"元设施\",智能体讲求编写和修改骨子的测验代码。
测验的时辰预算被硬性固定为 5 分钟墙钟时辰(wall clock time),不论你的硬件建立何如。这个联想聘用有两个刚正:
第一,不同执行之间的效果不错径直相比,不论智能体把模子改大了照旧改小了;第二,autoresearch 会为你的特定硬件找到 5 分钟内能达到的最优建立。代价是不同东谈主在不同 GPU 上获取的效果无法相互对照。评估量划是 val_bpb(validation bits per byte,开云sports考据集上的每字节比特数),越低越好,且与词表大小无关,这么即便智能体改变了分词决议,执行效果也能公正对比。

按照这个节拍,每小时不错跑简略 12 个执行,一整夜简略 100 个执行。Karpathy 在 README 里附了一张图:83 次执行中保留了 15 次调动,考据蚀本从接近 1.000 冉冉下落到 0.975 近邻。图上每个点是一次齐全的测验运行,绿色点暗示被招揽的转变,灰色点是被丢弃的。
你不错看到智能体尝试了多样种种的计谋,颐养 batch 大小、修改学习率退换、切换激活函数、引入余弦衰减等,有些管用,大大王人没用,但举座趋势是抓续向下的。
autoresearch 的测验代码开端于 Karpathy 在 2025 年发布的 nanochat 方法的简化版。nanochat 是一个障翳 LLM 全栈的执行框架,从分词到预测验、微调、评估、推理到聊天界面一起包含在内,联想标的是在 8 块 H100 GPU 组成的单节点上跑富足经过。
据 Karpathy 公布的数据,用 nanochat 测验一个 GPT-2 级别才调的模子简略需要破耗 48 好意思元(约 2 小时的 8×H100 节点),而 2019 年 GPT-2 的测验老本约为 43,000 好意思元(nanochat GitHub,2025)。autoresearch 把 nanochat 进一步精简到单 GPU 环境,砍掉了散播式测验、复杂建立和多阶段活水线,只留住一个能跑、能改、能相比的最小单位。
智能体在一个 git 分支上责任。每当它找到一个更好的建立,就提交一个 commit。你不错在 git log 里看到齐全的执行演化史。这种联想让通盘转变王人是可审查和可回滚的,同期也组成了一份自然的盘考日记。Karpathy 提出使用 Claude Code 或 OpenAI Codex 这类代码智能体来驱动执行轮回,况兼把通盘权限关掉,智能体只需要读写 train.py 和实施测验敕令的才调。
不外,这个方法现在只撑抓 NVIDIA GPU,测试环境是 H100。Karpathy 在 README 中坦承:撑抓 CPU、MPS(Apple Silicon)或其他平台在时间上富足可行,但会让代码膨大,而他不确信我方是否昂然在这个方朝上干涉元气心灵。他更倾向于让社区来作念 fork 和适配。
其实 AI 科研系统也并不算簇新,但 autoresearch 和那些企业级或科研级系统之间有一个紧迫的分歧:它是刻意作念小的。Karpathy 莫得搭建一个多智能体编排框架,莫得联想复杂的通讯公约,莫得引入什么追究模块或检索增强生成(Retrieval-Augmented Generation, RAG)管线。他作念的事情和昔日六年作念的事情相通,把一个看法压缩到你能在周末下昼读完并跑起来的鸿沟。一块 GPU,一个文献,一个轮回。
README 顶部有一段捏造的引子,莽撞是:异日 AI 盘考富足由自主智能体集群在天外中的盘算推算集群上完成,代码库一经履历了 10,205 次迭代,酿成了一个非常东谈主类交融的自修改二进制设施,莫得东谈主能考据智能体对版块号的说法是否正确。Karpathy 标注的日历是 2026 年 3 月,然后附言:这个方法讲的是这一切是何如开动的。
参考贵府:
1. https://x.com/karpathy/status/2030371219518931079
2. https://github.com/karpathy/autoresearch

备案号: