作者:vivek (@itsreallyvivek)

原文地址:https://x.com/itsreallyvivek/article/2064686372737454155

没人真正教过你怎么做研究。你得到了一张办公桌,一个别人挑好的问题,以及一个“搞点新东西出来”的模糊指令。因此,大多数人只能通过他们能看到的东西(论文、推文讨论和各种公告)去反推这份工作到底该怎么做。结果,他们最终学到的往往是“如何看起来像个研究员”,而不是“如何真正成为一名研究员”。

但真正的研究能力,其实是由一系列小技能叠加而成的,而且几乎每一项都是可以被刻意训练的。

挑选你自己的问题 (Pick your own problems)

理查德·汉明(Richard Hamming)在贝尔实验室有个习惯,这让他在吃午饭时很不受欢迎。他会问坐在他旁边的人:你们那个领域里最重要的问题是什么?然后再问为什么他们不去研究这些问题。于是大家纷纷换桌子吃饭了。

这个问题之所以扎心,是因为我们大多数人根本给不出一个好答案。我们并没有在“选择”问题,我们只是在“吸收”问题——从导师那里,从某个大实验室上个季度发布的公告里,或者从这周大家都疯狂转发的某篇论文里吸收。“吸收”来的问题最大的毛病在于,你只拿到了结论,却不知道背后的推理过程。你知道某个著名的实验室看好某个方向,但你不知道为什么,不知道他们期望发现什么,也不知道是什么因素会导致他们放弃这个方向。当他们转向时,你一年后才会知道。而且,在一个已经很热门的问题上,你是在跟成千上万个起步比你早、算力比你多的人赛跑。

John Schulman(OpenAI 联合创始人)的机器学习研究指南将工作分为两种模式:第一种是阅读文献并寻找可以改进的地方;第二种是你选择一个你真心希望实现的结果,然后倒推需要做哪些实验。他主张第二种,其背后的潜台词是:这种方法能“制造”原创性。一个你真正关心的目标,会把你拽进任何综述论文都未曾涉足的未知领域。

此外,大家在讨论“品味”时,总把它说得像是一种天赋。但它其实更像是一块肌肉。在运行每个实验之前,先预测它的结果。盖住一篇论文的结果部分,仅仅通过它的方法论来盲猜数据。记录下这个月发布的哪些模型/成果在两年后依然重要,并在以后核对你的命中率。预测,加上纠错,重复几百次——每一个优秀的模型都是这样训练出来的,包括你脑子里的那个“模型”。

升级你的信息输入 (Upgrade your inputs)

看一样的书单,就会产生一样的想法。如果你的信息饮食仅仅是 arXiv 论文库的热门趋势页面,外加群聊里筛选剩下的东西,那么毫无疑问,你会在同一时间得出和所有人一模一样的结论——这使得这些结论几乎一文不值。

旧资料的价值被严重低估了。这个领域总是在滞后地重演它自己的历史:混合专家模型(MoE)可以追溯到 1991 年,LSTM 追溯到 1997 年,反向传播在 1986 年成为主流。Rich Sutton 在 2019 年只用了大约一千字写下了著名的《苦涩的教训》(The Bitter Lesson),但这篇短文比长度是它十倍的综述文章更好地预测了整个领域的发展轨迹。

克劳德·香农(Claude Shannon)在 1952 年发表了一场关于创造性思维的演讲,他的开局策略是:把一个问题缩小到几乎微不足道的程度,解决这个迷你版,然后再把难度一块一块地加回去。仅仅这一个技巧,就能带你打破比任何现代生产力建议都要多的瓶颈。

知识的广度与深度同样重要。可解释性(Interpretability)毫不掩饰地从神经科学中借鉴思想;评估设计(Eval design)本质上就是披着实验室白大褂的机制设计。如果你对 GPU 实际上是如何调动内存的有一种务实的直觉,你就能在跑分测试结果出来之前,就知道哪些架构论文注定会扑街。而且,诚实的统计学可能是机器学习中最罕见的技能——在这个圈子里,很多已发表的所谓“严谨性”,不过是带着误差线的“直觉感觉”。

还有一件事:去读论文本身,而不是读总结它的帖子。 论文的附录才是真正藏着秘密的地方,而局限性(limitations)部分通常是整篇文档中最诚实的一段话。

把一切都写下来 (Write everything down)

保罗·格雷厄姆(Paul Graham)指出,一个想法你可能感觉已经很成熟了,直到你试图用语言把它写下来。纸面上的文字会暴露出你脑子里敷衍过去的历史遗留问题:那些你从未测试过的假设,那个其实并不连贯的步骤,以及两个暗中相互矛盾的主张。费曼的法则是,你首先要避免欺骗的人是你自己,因为你是最容易上当的目标。写作是有史以来发明的成本最低的防御手段。

达尔文走得更远,他把这变成了一套程序。任何与他的理论相悖的事实,他都会当场记录下来,因为他发现自己的大脑删除“不方便的证据”的速度,比删除有利证据快得多。你的记忆对你失败的实验也会做同样的事情。保持写日志的习惯:假设、设置、预期、结果、更新后的认知。重读上个月的记录,那种让人谦卑的感觉是任何同行评审都比不上的。

然后,把其中的一些公之于众。Olah 和 Carter 关于“研究债务”的文章提出,各个领域都因为那些未被完全消化的想法而停滞不前,因此一个清晰的解释是一项真正的贡献,而不仅仅是一项服务性工作。今天很多致力于“可解释性”研究的人,最初都是通过通俗易懂的博客文章而不是会议论文进入这个领域的。大量的公开写作也会成为你能拥有的最强有力的资历证明,因为它是你思维方式的一份无法伪造的样本。

缩短反馈循环 (Tighten the loop)

关于 Alec Radford(OpenAI 早期核心成员)的故事,很少是关于某一次天才的灵光一现。它们涉及的是“量”。每天运行更多的实验,每周抛弃更多的错误想法,他对现实的模型更新得比任何人都快。这才是真正的游戏规则。

研究的速度,本质上就是你发现自己犯错的速度。这就使得“工具构建”成为了一项极其重要的核心研究活动。启动一次运行应该只需要一条命令;绘制结果图表也只应该再加一条命令。每一个实验都应该能通过它的配置文件完全复现,比较两次运行结果应该只需要几秒钟,而不是耗费一个下午去做代码“考古”。

Karpathy(前特斯拉 AI 总监)训练神经网络的秘籍里有一个步骤,绝对能为你省下百倍的时间:在进行大规模训练之前,先在一个单一的数据批次(batch)上让模型过拟合(overfit)。 只要三十秒,你就能排除掉一半的 Bug。把所有东西缩小到成本低廉的程度,确保逻辑正确,然后再把算力砸进去。

还要摒弃那种认为“工程(Engineering)是下位工作”的偏见。在最前沿的领域,这两种工作已经融合在一起了。那个能搭建测试脚手架、评估工具和数据管道的研究员,才是其假设真正能得到验证的人。其他人只能在队列里干等。

死盯着输出结果 (Stare at the outputs)

一条不断下降的 loss(损失)曲线不是分析,那只是安慰剂。你的实验产生的有用信息,远远超过你实际消费的量:文本记录、失败案例、数据分布的奇怪长尾。它们中的绝大多数在 logs 文件夹里未被阅读就默默死去了。

Karpathy 的秘籍在写下任何训练代码之前就开始了:他会花好几个小时纯手工检查原始数据。大多数机器学习的 Bug 存在于数据中,而且它们是“静默失败”的。程序根本不会崩溃,你只会得到一个平庸的模型,以及一个关于它为什么平庸的错误理论。

吴恩达(Andrew Ng)十多年来一直在教授同样这个不起眼的招式,因为没有什么比它更管用了:挑出一百个失败的案例,把它们全部读一遍,把它们分门别类,然后集中攻克最大的那一类问题。 这招不仅对模型有效,对评估测试(evals)也一样有效:如果你从未读过某个基准测试的文本输出,那你根本就没弄懂那个基准测试。研究一次极其诡异的模型输出记录,教给你的东西将远超下一次精度提升带来的小数点后几位。

带有目的地漫游 (Wander on purpose)

你进入的第一个子领域纯粹是时机的巧合,所以请客观地看待它。在决定你未来的长期栖息地之前,花点真实的时间去了解可解释性(interpretability)、评估(evals)、强化学习(RL)以及系统底层(systems)。在这个领域的某个角落,你特有的“奇怪之处”会成为一种绝对的优势,而找到它的唯一方法就是在不同的地方交点学费。没人能免除这笔学费。

先把每个想法最“一次性/抛弃式”的版本跑一遍,让其中的大多数早早夭折。把你的基线模型(baselines)调优到让你痛苦的程度——因为机器学习的墓地里躺满了那些在经过严格调优的基线面前烟消云散的所谓“技术进步”,而论文评审人绝对是你最不希望指正你这点的人。

不断进行消融实验(ablate),直到你知道究竟是哪个组件带来了结果提升。通常起作用的只有一个组件,而且往往不是论文标题里写的那个。

知识的广度也是一种保险。所有的子领域都会饱和,而且通常是在它们在 Twitter 上被讨论到顶峰之后立刻饱和。那些在技术转型期依然能持续产出的人,正是那些早已经熟悉了周边邻近领域的人。

找到你的同频人 (Find your people)

汉明注意到了一个关于谁能做出重要工作的规律:那些喜欢关门办公的同事在某一年里能干更多的活,但那些喜欢开门办公的同事却做出了真正有影响力的工作。因为各种“打扰”往往携带着这个世界真正需要什么的信息。你的“敞开的门”可能就是你的收件箱。请保持它的畅通。

在研究工作中,慷慨的复利效应无可匹敌。 复现一个结果,然后发布你的发现;开源那个你为自己写的工具;用通俗易懂的语言解释一个复杂的难题。这些回报会在几个月后以意想不到的方式出现——一次合作、一次引用,或者一个你本来根本没资格申请的职位。

把你那些半成型的想法也公开抛出来吧,因为在时间线(Timeline)上犯错的成本,远远低于在正式发表的论文中犯错的成本。那个在你浪费三个月时间之前直接告诉你“这是个烂主意”的合作者,比算力还要珍贵。这种关系是买不到的,只能靠自己去赢得。

长期博弈 (The long game)

巴斯德说过,机会偏爱有准备的头脑,而汉明则在此基础上建立了一整套职业哲学:知识和生产力就像利息一样,是会产生复利的。

每天积累的微小优势在孤立状态下显得微不足道:你读了什么,记录了什么,你的反馈循环跑得有多快,你和谁进行了辩论。给它们几年的时间,它们就能造就一种在外人看来如同纯靠“运气”一般的成功职业生涯。

比你觉得有必要的时期,更早地开始积累复利。未来的你早就明白,这其实是成本最低的部分。