✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
每个人都在谈论@karpathy autoresearch,但你们大多数人其实不知道它到底做了什么。
有一个训练脚本(train(dot)py),用来训练一个小型语言模型,基本上就是一个婴儿GPT。
还有一个指令文件(program(dot)md),告诉AI代理该做什么。
你按下“开始”。代理会调整训练脚本,训练5分钟,检查分数。表现更好吗?保持。更差?还原。重复100次,整夜睡觉时完成。
这就是全部。
它实际上优化的:模型架构。不是预测。不是交易。也不是你的投资组合。
比如:
→ 4层还是8层?
→ 最佳学习率?
→ AdamW还是Muon优化器?
→ 在这台特定GPU上,哪个批次大小效果最好?
最优架构取决于你的硬件。H100需要完全不同的模型,而你的MacBook则不同。autoresearch会自动找到最适合你机器的配置。
你可以用它做的事情:
> 构建一个写代码的微型LLM,autoresearch找到最佳架构,你用你的数据集训练
> 创建一个离线在手机上运行的轻量级聊天机器人
> 训练一个模仿你写作风格的模型
> 测试“RoPE是否比ALiBi更适合小模型?”一夜内完成100个变体,而不是花3周做博士论文
> 为树莓派或边缘设备优化模型
你不能做的事情:
> 预测股价
> 寻找交易优势
> 分析电子表格
> 预测体育比赛结果
autoresearch是为那些想要构建语言模型的人设计的工具,而不是用它的人。Karpathy建立了一个自主循环,让AI改善AI。真正聪明,但它解决的是一个非常具体的问题。
而这个问题可能不是你的。没关系,只是别再假装它是别的什么。