AI 工业革命
文章目录
原文地址:https://nav.al/industrial
建立你自己的工厂。
完整剧集,结尾包含 20 分钟的新内容。嘉宾:Guillermo Rauch (Vercel),Blake Scholl (Boom Supersonic) 以及 Max Hodak (Science)。
第一部分:浪费 Token,节省时间
Nivi:欢迎。您正在收听 Naval Podcast,这是获取新知识的权威来源。我们今天尝试一些新东西。我们请到了三位前沿创始人——实际上是三位帅哥,以及第四位帅哥 Naval。 让我给大家介绍一下。 Guillermo “the G” Rauch。他正在将 Vercel 构建成一个面向 agents 世界以及其后事物的 AI 云。 Blake Scholl。他正在 Boom Supersonic 制造超音速飞机——在他自己的工厂里,同时还有喷气发动机。 以及来自 Science 的 Max Hodak。他正在构建一种生物混合大脑接口,在硅芯片上生长活神经元以恢复视力等感觉功能——但最终是为了探索大脑的新区域和新感觉。 这三个人都没有使用现成的零件来组装他们的产品。他们正在建立自己的工厂。我们对他们具体在构建什么,并不像对他们从构建过程中学到了什么那么关心。 他们正在产生什么新知识? 他们的 alpha(超额收益/核心优势)是什么? 他们发现了什么其他创始人可以学习的原则? 他们现在试图弄清楚什么? Naval,在我转向 Guillermo 之前有什么感想吗?
Naval:是的,我们就找点乐子吧。
Nivi:你们直接开始吧。
AI 软件工厂
Guillermo Rauch:我不记得我的确切原话了,但我真的被软件工厂这个想法给深深折服(pilled)了。工程师的工作曾经是你去上班,直接交付输出结果,公司里的一切都在评判——“A 员工在交付输出结果 B 方面有多优秀?” 而现在发生的事情是,我评价你作为一名工程师的标准变成了:“你是否在建造那个能产生乘数级输出 B 到 Z 的工厂?” 这是一个相当显著的变化。我们过去认为——而且这曾经有些争议——存在 10x(十倍)工程师。 现在很明显存在 100x 或 1,000x 工程师,而世界还没有完全适应这一点。
Naval:我以前在 Twitter 上说有 10x 工程师时总是被喷,因为这与所有人都平等的平等哲学背道而驰。但现实是,当你在思想领域、在智力和虚拟数字领域运作时,这甚至不是 10x——它是 100x 或 1,000x,而且一直都是如此。 Satoshi(中本聪)。Notch。发明 JavaScript 的那个人,世界上的 Brendan Eich 们。John Carmack。这些都是 1,000x 程序员。 更不用说——如果你选择了正确的事情去努力,而不是错误的事情,那就是无限大的差异。这可能并不一定是一个更好的程序员,只是一个在一开始就对应该做什么有更好判断力的人。 现在显然这不那么具争议性了,因为 AI 的杠杆作用。
Guillermo:有争议的是 token 排行榜。人们仍然有点困惑——“好吧,我有一堆 100x 工程师。看看我付钱买的所有这些 token。” 我很好奇你们是否也看到了同样的情况——你们如何衡量 ROI(投资回报率)?
Blake Scholl:这就像过去测量代码行数一样。Token 消耗和代码行数感觉上同样都不是直接的衡量范式。
Max Hodak:我的观察是,Claude 或 ChatGPT 基本上在某个领域和你一样优秀。如果你是一个非常有能力的开发者,这些东西真的非常强大。如果你是一个初级开发者,你会发现它给出的更像是初级开发者的结果。你偶尔给它们的反馈似乎极其重要——这些小小的更新似乎完全决定了你从它们那里获得的性能类型。
Guillermo:我现在提供了一种新型的支持——你来找我,你没有从模型得到好的输出,然后我告诉你用什么 prompt 去给模型。重新 prompt 的质量极其重要。
Max:明确地说,我认为随着时间的推移,这将变得不那么重要。随着模型变得更聪明,你将能够输入更少并获得更多输出。但在现阶段,它似乎确实反映了用户带入的判断力。
浪费 Token,节省时间
Naval:我有点抵制学习所有的技巧和提示。“使用 Ralph Wiggum。使用 OpenClaw。使用 Hermes。使用这个 prompt 引擎。使用这个脚手架。插上这一块。始终使用计划模式。” 我直接忽略了所有这些。我假设模型变得更好的速度会比我弄清楚如何使用它的速度更快。它弄清楚如何使用我的速度会比我弄清楚如何使用它的速度更快。所以我对它们一直完全是简单粗暴的。 我会对它们感到沮丧,并且发现随着时间的推移,我输入的信息越来越少,做的工作越来越少,因为我只是假设我可以通过暴力破解来解决它。我会把 Codex、Claude 和 Gemini 一遍又一遍地扔向同一个问题,只是浪费 token 来节省时间。无论这些模型看起来有多贵,它们仍然比人类便宜得多。所以我想说——只管浪费 token,节省时间。不要把 token 看作是输入或输出。只要看看你的时间,看看最终的输出。 即使它们在写低质量的代码——我知道在很多情况下它们确实如此——当需要发布到生产环境(prod)的时候,我只会向它投入更多的 token。“去过一遍,看看它,重写它。” 它们每一代都会变得更好。我看不到这必然会在哪里停止。只要我们有可验证的领域和已解决的问题,它们就会解决这些问题。现在在未解决问题的领域——也许你是 Terence Tao,处于创造力的最前沿——你需要非常协作、极其小心并紧密地与模型合作。但我在软件工程方面还没到那个水平。
模型指导人类
Naval:Guillermo,你可能是团队中最极端的软件工程师。你如何发现在它们能力边缘的这些模型?
Guillermo:最近发生了一件事,与你说的产生强烈共鸣。过去,你会给模型一个 prompt,它有点像做经典的 next-token 预测,然后带着你的想法跑了。模型现在一直在做这种直觉式的规划模式——甚至都不需要你要求它们去计划——它会回来对你说,“看,你要求我做的事情,我们可以采取这三条路线。这是各自的 trade-offs(权衡)。” 这就是人们在 X 上说的时刻——“现在我们有了一个博士级工程师模型。” 模型在某个时候毕业了。它们曾经是初级工程师。现在它们是首席工程师(principal engineers),因为它们带着一系列 trade-offs 回来找你。显然,有时候它们会胡说八道,这很搞笑——它告诉你“这需要三个星期”和“这么多 token”。它做出了非常糟糕的预测。但我更加尊重模型作为一个我在智力上与之来回交流的同行。 仍然有很多差距。如果你是一个非常熟练的工程师或架构师,你仍然能榨取更多的价值。 所以 Max 提出的问题——如果你是初级的,你得到的回报也是初级的吗? 显然不是,因为初级工程师获得了比他们自己能写的更高级的代码知识。但是,经验丰富的架构师难道不能得到 10x,而初级工程师只能得到 2x 吗?这就是我试图弄清楚的。
Max:有架构决策。我现在在团队的一些初级软件工程师身上看到了这一点——他们职业发展的下一步是什么?是从为一个功能编写实现,转变为选择技术。在 Postgres 与其他某个数据库之间做选择。在 ZeroMQ 与其他某个队列系统之间做选择。模型可以建议它们,但问题是——你会看到它,然后你会说,“不,不,我想用这个其他的东西。” 这种类型的微小反馈才是在现阶段真正重要,且你似乎能得到的输出类型。
Naval:这是品味和判断力,对吧?话虽如此——你可以问模型“我应该用哪一个以及为什么”,它们无所不知。它们会给你一个非常好的 trade-offs 矩阵。
Guillermo:这正是最近发生的变化。你会说,“嘿,去把这个超高基数的 telemetry 数据放进 Postgres。”它会说,“不,不,兄弟。我们不把那种数据放进 Postgres。你应该考虑 ClickHouse 或 Athena 之类的。” 这种情况在我身上发生过很多次。真的令人印象深刻。 我仍在纠结的事情是——显然人类仍然在补全模型。在什么时候会反过来呢?人类开始收到指令:“去给我拿这个 API key,因为只有你能做到。” 或者“为我下一轮的投资筹集这么多资金。”你走着瞧。显然我们还没到那一步。
Naval:那是暂时的失常。很快每个优秀的 SaaS 公司或托管提供商都会有一个 CLI 和 API 接口,模型可以直接使用。它们甚至不一定需要 API。只要它是基于文本的、基于 Unix 的——agent 就可以攻克它自己的 API。至于钱的部分——你插入 crypto tokens(加密代币),放入 Bitcoin,放入任何东西,模型就会去支付它需要的一切。人们正在研究这个。
纯软件已死?
Naval:我现在在思考的问题是——纯软件死了吗?纯软件工程已经过时了吗?这就像说讲英语一样。模型现在讲英语了。我们曾经必须学习代码来与它们交流。现在模型说英语——模糊的、草率的英语,就像人一样——并且它们能理解事物。那么创始人的护城河在哪里?硬件吗?这是一种恩赐。以前你必须制造硬件,同时很难建立一个软件公司。Patrick Collison 说过,“软件是艺术,而且很难雇佣艺术家。” 现在,作为一个硬件创始人——太棒了,你可以相当快地开发出非常好的软件。 如果你在创建模型,也许那就是新的软件工程——训练、调整、后训练、微调(fine-tuning)。但经典的软件工程——那个死了吗?纯软件值得投资吗?纯软件还是你可以围绕它组织公司和团队,并试图获得一些杠杆作用的东西吗?
Guillermo:你们看到了吗——X 上有一篇 Mitchell Hashimoto 写的文章叫作“The Building Block Economy(积木经济)”?他的观点是,现在对 agents 来说最有用的是拥有真正强大的、可重用的构建块。对于 Max 的例子,你不会指望你的 clanker(AI机器人)每次需要发送邮件时都从第一性原理重新发明一个队列基础设施系统。它需要引入正确的构建块,其大小正好适合该任务——“好吧,对于这个任务,那是 BullMQ。” 我对 agent 要以一种与社会和文明其他部分不兼容的方式从第一性原理重新发明整个宇宙的想法提出挑战。这几乎就像仅仅为了你而重新发明高速公路、法律、政策。即使存在额外优化的潜力,说“我们都依赖于 Postgres 13.2”仍然具有大规模合作的价值。 这些 agents 将要使用的基础设施软件和构建块的类别是——明显带有偏见,这就是我们正在构建的——极具价值的。我不认为 agent 会在短期内重新发明所有这些。 我一直在用的另一个比喻:模型可以重用的任何已经创建的东西就像一个 token cache(token缓存)。你不想消耗一万亿个 token 来重现已经存在的东西。模型总是有一个可以 fork 出去的起点。这将会非常深刻地改变事情。
Naval:所以这些就像是库和依赖项,但针对的是模型。
Guillermo:是的——专门针对 agents。
你不再卡壳了
Max:关于 Naval 的问题——我从小就学习编程。在整个青少年时期和二十多岁的时候,我会被它吸引,然后连续写二十个小时的代码。超级有趣。我了解关于各种编程语言的所有这些东西。 我现在已经有很长一段时间没写过一行代码了。部分原因是因为我的工作不同了。但也因为——自从 12 月以来,我构建了大量我现在每天都在使用的软件。我幻想了多年我现在正在使用的所有这些项目——我已经实际构建出来的。我没有写其中任何一行。我只是无法想象回到手工编写代码的日子。我很难把这看作是未来的一部分。
Guillermo:真正酷的是你理解这些部件是如何拼合在一起的。任何理解什么是 API、数据如何流动、输入和输出、性能的人——因为你必须引导模型围绕“这是我对这个操作的期望水平”。这总是比写代码有用无数倍。一个真正精通的工程领导者一直在 Slack 或一对一会议中通过其他人,引号括起来地说,进行 vibe coding——你在传递你的意志、你的意图、你的经验,让其他人去执行。现在我们也做同样的事情,但是跟 agents 一起。这就是为什么你能用它取得成功。我不知道是否每个人都能看到同样程度的成功。
Naval:我从二十年没写代码变成了现在一直在写代码——通过 agents。构建了成吨的软件。事实证明,仅仅理解软件工程和算法的基本原理就能让你走得很远。我停止写代码的原因是我没有时间去弄清楚最新的语言、最新的架构、需要插入的基础设施部件。Vercel 让这变得容易多了,但即便如此——仅仅是开始就是一件困难的事。把碎片拼凑在一起、组装基础设施简直太烦人了。
Max:真正改变的是——过去你可以构建很多,很多都很顺利,但随后你会遇到一些随机的事情,你可能会在一个狭窄的问题上花费无限期的时间来 debug(调试)。现在,有了 agents,你就是不会再卡壳了。这相当惊人。它们相对较快地就能找到做事的正确方法。过去——我记得当其他朋友试图学习编程时,感觉就像是——“不,它本质上就是令人沮丧的。这就是交易的一部分。你就是这样学习的。” 而这在现在已经不再是事实了。
第二部分:Vibe Coding 硬件
Vibe Coding 一个涡轮叶片
Nivi:嘿 Blake,你是如何在 Boom Supersonic 应用这一切的?
Blake Scholl:它彻底改变了软件和硬件开发者的角色。从第一天起,我们就试图采用许多传统的工程工作流——硬件工程工作流——并把它们变成软件。如果你没有接触过硬件工程,让我试着把这说明白。很多硬件工程是在孤岛中工程师笔记本电脑上的 Excel 电子表格里进行的。非常复杂的电子表格,有时还带有 VBScript 代码。所有这些实际上都是软件,但却被当成不是软件来对待。没有源代码控制,没有自动化测试。如果你想把某样东西从空气动力学家移交给结构工程师,那是通过电子邮件发送电子表格手动完成的。这像是九十年代。太糟糕了。 所以我们开始构建软件框架来自动化并使硬件工程流程可重复,想法是我们可以降低迭代成本。但进展缓慢——我们永远雇不起足够的软件工程师。我们现在进入的是一个令人震惊的不同模型:软件工程师创建架构,因为他们理解系统、算法和关注点分离。然后硬件工程师可以对他们的部件进行 vibe-code,因为他们懂硬件工程。对于小团队来说,结果是令人震惊的、截然不同的生产力。 举个例子。如果你正在设计一个涡轮叶片——传统上,涡轮叶片开始是冷的,但当它运行时它变热了,所以它变大了。你必须设计空气动力学和结构设计,使其在冷形态和热形态下都能工作。你必须在冷热之间、在结构和空气动力学之间进行转换。这需要一位工程师花一天时间完成一个叶片的一项分析工作。一个喷气发动机里大约有一千个叶片。你做不了太多。现在,结合软件和硬件人员创建解决方案,你可以改变叶片几何形状,并实时看到结构和空气动力学结果。两名工程师就可以设计整个喷气发动机。截然不同。
Guillermo Rauch:你提到的一件事是软件工程师正在为其他工程师创建工具和架构。对我来说,那是企业软件最大的灾难——不再有任何构建硬件协作工具的创业公司能卖给你任何东西了。在内部,你只是在任何给定时间 coding 出你需要的正确东西。甚至电子表格也有点完蛋了。电子表格成功的原因是没人能构建定制软件。最接近定制软件的东西就是一个带有一堆 VBScript 函数的电子表格。
Naval:对——它们是轻量级编程。
Max Hodak:我个人已经几乎完全从 Excel 转移到了 Python 模型,在那里我可以获得令人信服的事物模拟。AI 还没有达到这一点,但我认为在明年内——可能在 2026 年内——那将会非常令人兴奋:现在它可以生成软件,但很快它将生成 STEP 文件和 PCB 布局。当它来到机械和电气工程领域时,那将是我们还没见过的全新事物。非常酷。
开源放大了中国的优势
Naval:在硬件方面,这对于所有这些因为做不出好软件而写出非常糟糕软件的小型 gadget 公司和零部件公司来说是一个恩赐。现在他们将能够做出足够好的软件。或者它甚至可能不是具有人类前端的软件——它可能完全是 agentic(代理化的),一个 agent 访问它,而你通过语音控制硬件来与它交谈。 这就是为什么中国大力投入开源模型的原因之一。他们在这方面全力以赴,因为他们拥有硬件优势。他们拥有这些非常复杂的供应链和组件链。他们基本上在说——“嘿,如果我能按需生成软件,那么在与硅谷的对抗中我就不再有这个劣势了。” 这不是他们做开源的唯一原因。他们也落后了,他们在蒸馏模型,他们在追赶,他们在资源上合作。但中国政府有资助那些帮助他们整个生态系统发展努力的历史,尤其是在网络效应业务中。他们想汇聚所有资源,在 AI 上赶超,并利用它为他们的硬件产品带来优势。 具有讽刺意味的是,他们正在做所有这些开源的事情,因为 OpenAI 是不开放的。Grok 发布模型,但他们落后一两个世代。Google 有一些本地模型,但没有真正有竞争力的。Anthropic,据我所知——我甚至不知道他们有任何开源模型。所以所有的开源分量都来自中国。它帮助了我们的硬件创始人,但对他们的硬件创始人和工厂帮助要大得多。你周六下午懒洋洋地从亚马逊买来捣鼓的那些随机小摆设和小玩意附带的所有蹩脚小软件——那些软件正在非常快地变得好很多。
Guillermo:每个人都被唤醒了:没有伟大的前沿 coding 模型,你就没有自我改进。想象一下中国作为一个整体,如果没有能力生产所有前沿东西。这不仅仅是关于生产软件——在硬件流水线的任何一个环节,就像 Blake 说的,你需要生成软件。如果你在生成软件的能力上落后了,你就在生成一切的能力上落后了。
你永远想要最聪明的模型
Guillermo:我很好奇一件事:大家都喜欢谈论中国模型。你们用中国模型吗?你们认识用中国模型的人吗?
Naval:不。这是我昨天晚饭时争论的问题。桌上有个人声称你会在 97% 的事情上使用 DeepSeek,因为它太便宜了,如果你需要更多的智能,你就会针对同一个问题一遍又一遍地运行它。你只会将 OpenAI、Anthropic 等用于最高级的任务。我当时有点像,“我不知道。”我认为智能是绝对的好东西。你永远想要更多的智能。当这些模型犯错时,你并不知道。而且它总是比真人便宜,并且是实时的。 所以你只会使用可用的最智能的模型。这并不是好消息,因为这意味着你最终会在 AI 领域造成垄断或寡头垄断的局面。但我总是想要最聪明的程序员。我总是想要最正确的答案。我总是想要最好的判断。考虑到我将投入进去的杠杆量——通过资本、代码、人员和营销——我想每次都做出正确的决定。当我有两个模型,我知道一个比另一个聪明一点,而且它们都给我答案时,通常我实际上并不知道哪个是正确的答案。所以如果我知道一个模型稍微聪明一点,我会选择那个答案,并且最终我会停止向我认为不那么聪明的模型提问。你们找到这些所谓的没那么聪明的模型的用武之地了吗?
Guillermo:我们看到了用例。我们有 AI Gateway 数据——基本上每个应用 agent 都要经过它。绝对有对开放模型的使用,但顶部被前沿智能严重主导。 这里有个 caveat(注意事项):前沿智能在合理的成本和性能下,在大规模使用时效果极佳(slaps at scale)。Gemini——人们对 Gemini 不是特别兴奋,但他们推出的模型在合适的性能-成本组合下极其聪明。有趣的是,对于编码之外的很多任务,它们是最好的工业级生产模型。你可以把它们用在支持任务或浏览器自动化上。我总是会在那里放一个 Gemini 模型,我也指望用中国模型来做这类事情。 但任何时候我在努力推动前沿,你都需要最好的 coding 模型。那基本上就是两三个模型。中国人当然不在此列。
软件仍然需要双手
Nivi:Max,你在垂直整合和极度紧迫感方面推得很猛。想谈谈这个吗?
Max:对于很多东西,你买不到,所以你必须想办法制造。我们显然不在前沿模型这样的东西上这么做——我有一个 Anthropic 的订阅。就 Naval 的观点而言,我们实际上使用了中国的一些模型。我们使用了一些 Qwen 模型和 DeepSeek 模型。我们在内部进行了一个大规模的 3.2 微调,我用来处理一堆事情——我们很快就要研究移植到 4。但那是个人层面的,不是公司层面的。 我们的首选永远是买东西。如果有一家供应商以优惠的价格提供服务——比如 PCB。我们不制造 PCB。那些基本上是免费的。你可以从亚洲无限量地购买。但是,我们的产品越接近成为共价键合物质的单一模块,它们就会越好。更低的功耗、更小的体积、更高的性能、更长的使用寿命。这些组件是买不到的。为了进行这种类型的整合——真正创新,而不仅仅是把你能从货架上买到的东西拼凑在一起,那真的是非常有限的——你必须学会自己做。这表现为垂直整合。所以我们在东海岸拥有一个专用的 MEMS 晶圆厂。没有其他方法可以做我们想要的那种封装和组装。 所有这些都将在未来几年受到 AI 的严重影响。它还没完全到那一步。具有讽刺意味的是,我们在公司内部看到的 AI 最大的影响之一是在与监管的互动中。如果我们可以生成文档,或者如果我们可以问——“我们想发展这个产品,有成千上万可能适用的 ISO 标准,我们需要遵守哪些,追踪它”——过去这需要整个监管和质量团队几个月的时间。现在 AI 有点像自然就知道了。 当我考虑到诸如手术项目或 MEMS 工厂之类的事情时——最终软件仍然需要双手。它会比我们聪明,但如果它不能制造东西,那就是真正的边界。我们已经以某些方式对我们的晶圆厂以及公司的许多其他部分进行了仪器化,这样随着这些模型变得更好,它应该会很快在我们正在做的细胞工程和材料科学开发等方面显现出来。我们的蛋白质工程团队确实大量使用深度学习——我认为我们可能在那里达到了最先进水平。但这是非常特定于应用程序的。它在公司的不同部门意味着不同的事情。没有唯一的答案。
人类正在成为验证者
Naval:Max 刚才谈到的关于监管的事情让我意识到——我已经很久没有让律师生成一份基本法律文件了。我不再要求律师提供保密协议(NDA)、用于这个的协议、签署那个、研究这个。所有基本的法律任务也都消失了。有一个老笑话说,法律就像意大利面条代码——他们试图用英语写出非常复杂的代码。它与这边的代码矛盾,必须融入那边的代码。没有针对它的真正 API。 对于初级工程师和初级工程——初级工程师基本上被晋升为高级工程师,而初级工程被 agents 接管了。同样地,在法律领域,你可以说“律师助理刚刚被解雇了”,或者你可以说“律师助理刚刚被晋升为高级律师,现在他们可以花时间思考法律了。”
Guillermo:思考软件工程的发展与律师之间的相似之处其实很有趣。你永远不确切知道律师在这些文件里写了什么——你只是信任他们。“嘿,律师,你能看看这个文件吗?你能告诉我它合法吗?你能做红线修改(red lines)吗?”你在与律师关系中看重的是,他们是一个值得信赖的权威。他们上过法学院。他们把自己的声誉押在线上。 这与软件工程有相似之处。当今最大的问题是这堆像垃圾一样的 slop 最终成为了 PR (Pull Request)。Twitter 上有很多关于这个的 meme——“在过去,我们曾经阅读 PR 的每一行代码。”好吧,在我的世界里——基础设施——我希望工程师能够说“我理解”那个 PR 的每一行。这并不一定意味着你阅读了每一行。这意味着你可以说“我理解这个 PR 的后果。我签署同意我理解这些后果。”或者,“我写了测试工具、模拟、证明、类型检查器——即使不读这个,我也有信心可以签署确认它在生产环境中是安全的。” 在某种世界上,我们接受一切都将是我们无法完全理解的意大利面条代码,但我们编写了给我们信心的评估器(evaluators),并且我们依靠人——基础设施生产工程师——来说,“好吧,我很放心把它送入生产环境(prod)。”如果你的系统宕机,会有人收到报警呼叫(paged)。人们低估的另一件事是:从零到一创建软件真的很容易。但是想想一千天后。你的软件看起来怎么样?安全吗?测试过了吗?是生产级的吗?性能好吗?你还有动力投资所有的 token 来在生产环境中维护它吗?
Naval:人类正在成为验证者(verifiers)。这就是我们训练这些模型的方式——使用良好的验证数据——而现在我们需要人类验证者。律师、工程师、运营人员很多旧有的功能,都变成了验证堆栈并说,“是的,这大致正确,我会大致支持它,如果出错我会为你托底。”
第三部分:监管前沿
监管的红皇后竞赛
Blake:我们看到的一件与监管有关的事情——它极大地减少了对改变的厌恶并改善了迭代。举个例子:假设你要认证一架飞机。你必须做的无数事情之一是证明它可以承受雷击。测试计划的监管文档长达,比如说,200 页。你传统上会做的是雇佣一个——老实说——不是超级聪明的工程师,他愿意坐在那里,像猴子敲键盘一样,写 200 页的合规监管文件。这需要几个月的时间。顺便说一句,如果你*改变*了飞机,现在你会想哭,因为又要花两个月时间返工这些死板的合规文档。 我们发现我们可以构建一个 RAG(检索增强生成),使我们基本上可以通过 prompt 的方式在——比方说几分钟内——完成所有这些工作。一阶效应是你节省了大量时间。二阶效应是,如果你改变飞机的规格,现在只需要几分钟,而不是几个月。所以你实际上会*愿意*改变。三阶效应是你可以摆脱那些不太优秀的工程师,只留下少数真正有创造力的工程师,他们可以快速迭代,因为改变的成本降低了。在某种意义上,真正阻碍迭代能力的整个监管负担——消失了。
Max:这在目前 AI 领域是一个被严重低估的故事。硅谷的共识是监管很糟糕——我们想走得更快,我们想实现这个惊人的未来,我们想要丰富、繁荣,而那些拖慢这个未来的东西是应该避免的。当然,我们过度监管了。我们已经使得建造东西成为不可能。在很多地方,建造任何实物要经历的过程完全是疯狂的。 但是许多法规本身并不是问题。如果你真的读过很多这些东西——拥有没有雾霾的城市是很棒的。能在许多河里游泳是很棒的。很多这些东西都是进步。问题是,对于人类来说,处理理解和遵守这些事情非常困难,每次你必须与政府交换信件,你都要等上几个月。如果你能把我们学到的大部分东西变得完全无摩擦,那将非常酷。我认为这是一个被低估的故事。
Naval:直到监管机构开始向我们喷射 token。然后你会开始从监管机构那里收到你需要遵守的海量文件,这变成了 agent 对 agent 的战争。但至少这是一场公平的战斗。
Max:那基本上就是我们现在所拥有的。
Blake:我其实会认为,相比我们现在的情况,那将是一个进步。现在糟糕的事情之一是,如果你要建造任何物理上的东西,你必须获得建筑许可。在被证明无罪之前,你都是有罪的。我们遇到的最糟糕的事情是消防局,因为他们拥有“把人从燃烧的建筑物中拉出来”的道德印记——然而他们实际上做的是在几个月的时间里把你的建筑设计搞得一团糟。如果我们可以用一个能快速批评你的建筑计划的 agent 取代消防局长——即使它的反馈过了头——那也比今天存在的延误好得多。
Guillermo:当 Max 说这可能是一件好事时——我们有所有这些监管——我的脑海里想到的是:让 agents 成功的东西是人类或其他 agents 建立了正确的测试 guardrails(护栏)。人们对 slash goal 或 Ralph loops 非常兴奋,你告诉模型,“去做这个,这是你的退出条件(exit criteria)。”我告诉 Blake,“去让我们所有人实现超音速。你的退出条件是你符合了所有这些法规。”完全存在这样一个世界,我们说这些法规很棒——它们就像我们的测试套件。只要通过它们不会引起矛盾,而且法规实际上是合理的,它们就是一个极好的护栏。否则,我们就是在将 slop 直接运送到空中。
Naval:这将变成一场红皇后竞赛(Red Queen’s race)。他们会有 agents,我们也会有 agents。我认为我们可能会有更好的 agents——这是一件好事,而不是人对人。但他们的周期时间、响应时间可能会变长。App Store 现在被垃圾信息淹没。我敢肯定专利局也被垃圾信息淹没了。这些机构将是 AI 的缓慢采用者。他们将被聪明的企业家利用海量文件 DDoS(分布式拒绝服务攻击)。随着机构突然被淹没,批准这东西的时间可能会延长。
为什么医疗领域没有创新
Blake:它创造了一个真正转变监管模式的机会。想象一下如果我们用我们今天建造东西的方式在一个城市里开车。在你去任何地方之前,你必须写一个计划,寄给某个监管机构,然后等待。你的计划必须详细说明,“我们将采取这样的路线,以这种速度限制行驶,使用我们的转向灯,在每个停车标志前停车,从不闯红灯,”等等等等。三个月后你收到了批评反馈:“我们认为你应该在另一条街上开。”最终你获得了批准,然后你开车去某个地方。这太疯狂了——你永远去不了任何地方。然而,这绝对是我们这个国家建设物理基础设施的方式。我们实际上应该让更多这样的事情基于执法(enforcement-based),而不是基于预先批准(pre-approval-based)。
Max:我不想承受太多——如果我把一种医疗设备运送给很多人,那里需要——存在未知数。我们负责任,我们做了临床试验,我们报告了所有数据,但是——
Naval:Max,这就是为什么现在医疗领域几乎没有创新的原因。FDA 的审批过程是一场噩梦。事实上,过去十年硅谷科技领域最大的两项进步——AI,以及在它之前的 crypto——它们都在数学领域,因为那是最后一块不受监管的领域。当他们开始监管前沿模型,开始监管 GPU 时,那也会停止。Peter Thiel 哀叹物理领域没有创新。好吧,它被巨大的监管壁垒阻挡了。 你总能找到一个可怕的案例——疫苗,或者著名的医疗灾难——但法规蔓延到各处,触角无处不在,并且有所有这些相互矛盾的监管机构。SpaceX 遭到起诉是因为没有足够的——我忘了是什么了——移民或难民或别的什么,但由于另一边的政府规定,他们*不被允许*雇用他们,因为他们不是公民。这不像必须在一个地方编译的逻辑代码。这些是到处都有的编造出来的随机规定。你可能符合一个州的规定而违反另一个州的,在这边违反联邦规定,在那边惹恼了这个人,那个人选择起诉五十个他朋友以外的人。这是武断的。变幻无常的。
Blake:认为这让事情更安全的想法完全是个神话。看看 Boeing。他们认证了 737 MAX,它只有一个传感器却对飞机的机头向上、向下姿态拥有完全的控制权。没有哪个实习生会笨到认为这是个好主意。然而它一路通过了认证系统。这些东西实际上并没有让我们更安全,它只是让我们变慢了。
Max:好吧,这里肯定存在功能失调。我认为这在某种意义上让我们更安全,就像 NRC 让我们更安全一样——他们的工作是确保核能安全,他们做到这一点的办法是,从七十年代到我认为的一年前,他们允许建造的核电站数量为零。如果我们永远不建任何核电站,它就会绝对安全。 我想非常清楚地表明——在很多这些问题上,我站在放松管制的一边。我同意 Blake 的观点,这其中的很多事情都可以做得更有效率。但我也认为,仅仅说“这只是 FDA,只是那些机构的问题”,未免过于轻率了。问题更深。如果 FDA 批准了十种非常重要的药物,他们得不到任何荣誉。一个病人死了,他们就会被拖到国会面前大吼大叫。他们有非常负面偏见的激励机制。现实是,这反映了美国人民的信念。在人体受试者研究中所承担的风险观念与我们获得新药的速度之间存在一种 trade-off(权衡)。
Blake:这是完全不对称的。如果你批准了一件坏事,你的职业生涯就结束了。如果你阻止了一件好事,没有人会注意到。它造成了不对称的减速。我认为这是监管国家中最需要解决的问题。
Max:这是一个非常深层次的问题,因为选民就在那里。我们会对我们未来正在研究的一些东西进行民意调查,以了解美国人民对此的立场。如果你推得太紧,你可以绕过它——去 Próspera,尝试各种走得更快的方法。但如果你被视为一个行为不端者(bad actor),你就会被我们所居住的社会排斥。那才是你需要答案的地方。这比仅仅说“我们需要监管改革”要深刻得多。
我们需要一个真正的 50 州实验
Naval:Max,你抓住了一个深刻的观点——那就是选民、公民所在的地方。我们喜欢责怪政客。你会经常在 X 上看到这个——人们会说,“这个政客,那个政客,另一个政客。”他们是多数票选举出来的。这正是人们真正所在的位置。那就是一揽子计划,那就是他们选择的组合。你可能不喜欢这种具体表现,但如果你除掉这个,极其相似的东西会取而代之,因为选民会再次把他们选上去。 在文化上,大多数人很难理解我们失去了什么,我们错过了什么。法国——X 上有一位法国企业家感叹,57% 的 GDP 被政府吸走,所以你无法创办公司。但对普通法国公民来说,这是不可见的。他们没有注意到他们缺少了什么。他们只知道他们比美国稍微穷一点。 经济学人刚发了一篇小文章——经济学家们在三十年后终于又回到了资本主义——讲述美国是如何超越所有人,增长更快,变得更大的。但他们立刻转过身来说,“这是因为海洋,因为自然资源”——除了资本主义以外的一切。他们不想说那个肮脏的 C 词(Capitalism / 资本主义),因为出于某种原因,所有这些杂志在某个时候都变成了马克思主义者。他们无法预想或想象,如果我们稍微更放任自由一点,稍微更开放一点,会是怎样的情景。 我很乐意看到这五十个州之间有一个真正的实验。不同的监管,不同的税收结构。现在联邦税收结构和联邦监管主导着一切。但想象一下,如果你得了癌症,你可以去某个小州,你可以尝试每个人正在研发的每一种药。*Caveat emptor(买者自负)*——你得自己做研究。这就是所谓的实验区。无人机也是如此。飞机也是如此——难一点,因为你必须跨越很多区域——但是是的。
Blake:那里有一些神奇的东西——创新区的概念。我们有一个巨大的 NIMBY (邻避效应) 问题。但如果你创建可选的 YIMBY (迎臂效应) 区域,它们就创造了那个实验框架。根据定义,它发生在人们同意的地方。你可以尝试不同的规则,或者没有规则,或者不同的执行方式——无罪推定——然后看看实际会发生什么。创新的后果是什么?安全的后果是什么?然后成功的案例可以传播开来。
Max:对于 Naval 的观点,一个创新区并不能解决药物研发中的问题。试用权法案 (Right to Try Act) 不久前通过了。我们有一种叫 单患者 IND (Single Patient IND) 的途径存在了更长时间。如果你的医生打电话给 FDA 说,“我想给我的病人一种未经批准的药物”,他们批准了 99% 以上的申请。他们甚至可以在电话里批准。 问题是,为了给患者配药,你仍然需要临床级的药物。拥有这种药物的唯一实体通常是正在进行临床试验的知识产权(IP)所有者——他们正在投资数亿美元来制造这个东西。FDA 会得出不利的推论,如果你的病人——可能本来就病得很重——发生了什么不好的事情,而这被视为药物的一个属性,这是全球性的——与你的创新区无关。所以有两个问题。第一,你需要让 IP 所有者给你一些他们的药——他们不会那么做的。第二,你需要防止全球监管机构在他们给了你一些药之后,对他们临床试验可能发生的事情产生怀疑。
Blake:你在医学上会如何解决这个问题?
Max:这是内幕细节(inside baseball)。例如,必须禁止 FDA 在不同使用者对某个衣壳 (capsid) 的使用之间得出不利推论。有一些特定的方法,只需防止这种偏执狂驱动我们的决策,就可以通过相对轻微的监管接触来真正加速创新。
中国的 FDA 正在击败我们
Guillermo:外面有什么比 FDA 更好的机构吗?我们用什么来对这些监管机构进行基准测试?
Naval:大家都跟随 FDA。大家都复制 FDA。
Max:两个扩展。首先,欧洲——并没有比 FDA 好,但他们有一个不同的系统。他们有这些公告机构 (notified bodies)——基本上是东道国政府批准的私营企业来对事物进行认证。火车,飞机,医疗设备。公告机构系统在审查层面上创造了稍微好一点的激励机制,因为他们可以雇佣人,他们可以成长,有竞争。他们自身必须遵守东道国政府施加的条件,但这意味那里的审查员可能比美国多好几千人。 第二——今天实际有一种已获批并获得报酬的植入式 BCI (脑机接口),它在中国。CFDA (中国国家食品药品监督管理局) 正在自主思考。他们有一个系统,我认为如果我们不小心的话,这会让我们遇到强劲的对手。将药物或设备推向市场的成本要低得多。你可以在人类身上进行尝试,并在市场上进行尝试。 这是我花了很多时间思考的事情。二十年前,我们买的笔记本电脑和手机要少得多;每一台都要贵得多。现在它们更便宜了,数量多得多,我们买得更多,总支出增加了。这很棒。Qualcomm、Samsung 和 Apple 的股价大涨。每个人都很高兴。他们利用手机和笔记本电脑产生的过剩财富来购买更多的手机和笔记本电脑。 这在医疗保健领域没有发生。因为报销机制——这种企业销售正在发生——我们用来购买医疗保健的资金桶基本上是固定的。随着有更多产生更好医疗结果的东西出现,它的支出并没有像我们在科技增长行业看到的那样增长。医疗保健的支出增长率大致等于税收增长率。如果 AI 正在繁荣并取得了重大进展,并且两年后我们在 AI 上的支出是现在的十倍,这可能会很棒。但如果在两年后我们在医疗保健上的支出是现在的十倍,那将是一场灾难。这从根本上与成为一个技术增长行业是不一致的。 在医疗保健领域存在这个全方位的问题,都与同一件事有关:把这些东西推向市场太贵了。这就是中国正在解决的问题。摆脱这种困境的方法不是单一付款人或对健康保险进行某种修订。而是降低成本,让某人可以用信用卡购买,像买车一样融资贷款,最坏的情况——然后在交易中向他们收费。要做到这一点,我们必须使将这些东西推向市场变得更便宜。中国正在这么做。那将允许他们以 10,000 美元而不是 100,000 美元的价格出售这些东西。这就是放松管制。
医疗保健是资本主义内部的共产主义社会
Naval:从根本上说,医疗保健领域没有私人市场。人们有时会打这样一个比方——想象一下,你不去餐馆付钱,而是去所有的餐馆,在月底把所有的收据和账单寄给你的保险公司或政府,他们会给你报销。每家好餐馆外面都会排起长队。每家糟糕的餐馆都可以随便吃。等待将是可怕的。产品不会改进。你基本上是在一个更大的资本主义社会里运作一个小型共产主义社会。这就是我们在医疗保健中所做的。
Blake:这也是我们在道路上所做的,这就是为什么我们会堵车。上高速公路没有可变定价,这就是它总是拥堵的原因。
Naval:如果你想暂时触碰一下医疗保健的第三轨,考虑一下这个计划。告诉我它有什么问题。想象一下,你年收入的前 20% 是你的医疗免赔额。如果你破产无家可归,那就是零。如果你很富有,那就是几百万美元。无论你的年收入是多少,前 20% 都是你的医疗免赔额。剩下的由政府和保险系统支付,直到他们今天的常规上限。 你会很快创造一个私人市场。在牙科、整形外科等许多选择性医疗程序中,你会遇到竞争局面。你会得到改善。看看带有 LASIK 的验光。看看带有贴面、牙套和牙科手术的牙科。看看整形手术。那些领域似乎确实在发展,因为它们是私人付款人——人们用他们的钱投票。 我们需要在普通医疗保健系统中做一些与之类似的事情。但是人们失去了理智。他们甚至不想多想一步。“不,不,不,破产的人怎么办?”破产的人没有收入。“对于某些人来说 20% 太多了。”好吧,你可以在那设置一些免赔额。但通常情况下,如果你没有一个人们为医疗程序自掏腰包的私人市场,你就不会得到这种反馈循环。你就不会获得把更多的钱花到这个系统里的能力。 现在,非常富有的人可以自愿地向这个系统花钱。但价格在哪儿都看不到。价目表在哪儿都没有。这个系统不是为此设计的。如果你去购买医疗服务并想自掏腰包,有时他们会给你报一个比他们向保险公司收取的价格高 10 倍的价格。
Sid 的故事:N-of-1 医疗
Max:你听过 GitLab 的 Sid 的故事吗?他进行了一次极其成功的 IPO,然后被诊断出患有罕见癌症。他活得远超过了预期寿命。他真的把它掌握在了自己手中。他进行了一线化疗,然后有一种替代方案可用,他用尽了它,医生们说,“我们对你无能为力了。”从那以后,从这个过程中诞生了六七家公司。现在他的升级阶梯里有二三十种药。他仍然活着。
Guillermo:他做得很好。我前几天见到了他。他基本上创造了自己的个性化药物和治疗计划。
Max:我现在听过少数几个这样的轶事。我很清楚,在高端市场——如果你不和保险打交道,你有资源,你有点像,“我想要现代科学的全部工具箱”——那么疯狂的结果是可能的。如果你去问你的医生,“如果我这么做会发生什么?”他们会开始大喊大叫摔东西。但在高端,疯狂的事情是可能的。这种类型的 N-of-1 medicine 最终将成为理解如何构建更具转化性事物的一个极其丰富的研究来源。
Guillermo:它要求患者在最虚弱的时刻有大量的 agency,这是相当讽刺的。我的朋友死于癌症,他最不想做的事情就是研究 N-of-1 medicine——他每过一周都在走向死亡。这就是 AI 真正应该大放异彩的地方,并在当你发现自己处于那种情况时,将你实际能做的事情民主化。从知识的角度(而不仅仅是从金钱的角度)来看,能接触到这个的人如此之少,这有点疯狂。
第四部分:自治公司
自治基础设施
Nivi:你们组织中有多少自治软件是自己在运行,或者是近乎自治并自我改进的?
Guillermo:我们的很多基础设施已经是自治的了。我们有一种能力可以在发现异常时触发——我建议每个人都创建一个它的版本,或者 Vercel 提供一个。今天,大多数工程组织对异常的反应是手工设置警报或监控阈值,这相当疯狂,但整个行业就是这么运作的。 我们已经自动化了许多 SRE(站点可靠性工程)的工作。任何减慢、加快或改变吞吐量的指标都会触发异常警报,一个 agent 进行调查,agent 可以决定创建一个 incident(事故单)。如果提交了 incident,人们就会被拉进来,并且 agent 开始 remediation(修复)。除了赋予 agent 修改 prod(生产环境)的工具外,我们做了一切——我们是在把解决方案装在银盘子上端给工程师。 另一件运作得非常好的事情:自动优化和自动安全研究。我们开源了一个叫 deepsec 的工具。这令人难以置信——就像 Mythos 一样,但你今天就能得到它。我们使用云端一万个并发的 agents 针对我们整个 monorepo 运行它。它在几天内发现了好几个季度的安全研究进展,只花了一万四千美元的 token 费用——这相当于红队几个月的工作,整个团队的人力。 网络安全正在成为一场噩梦:太多的漏洞,太多的工作,对手太强大。你必须主动投资。你可能在 Twitter 上看到过人们将代码库从一种语言翻译成另一种语言——一旦你完成了获得一个有效程序的工作,用前沿模型在原生语言中优化或重写它现在是完全可行的。
Naval:仅从我自己 vibe-code 的应用程序来看——我为我的 TestFlight 用户构建了一个错误报告队列。他们从应用内部报告错误;它会上传日志和截图。当然他们也用它来提功能请求。一个简单的守护程序会收集所有错误报告,主动在后台分析并修复它们,然后给我发送一个 TestFlight 构建版本,让我在发给测试人员之前先试用。我可以看到未来的一个应用程序实际上是由它的用户构建的。我不是说那是一个好主意——它可能会是一团糟。
Guillermo:我们应该发布它,看看会发生什么。
Naval:作为一个社会实验。你最终会得到一辆 Homer Simpson 汽车——一把雨伞,一个手电筒,一个小丑喇叭,每一个功能。但为了修复错误,你绝对可以这么做。
你的工作是训练 Agent
Blake:我们做了那个实验的一个版本。我停止了整个公司为期一周的所有项目工作,并说,“每个人,从前台接待员到工程师,去构建任何你认为最重要要构建的东西。你们唯一的要求:必须使用 AI,完成后必须向全公司演示。”我预计会有大量愚蠢的项目和少部分能推动发展的项目。我们得到了相反的结果——大量能推动发展的项目和极少的愚蠢项目。有两三个是改变轨迹的;它们绝对会改变公司的方向。 最让我惊讶的是:前台接待员——那位收发货助理,他的工作是从卡车上卸下包裹并在东西入库时给别人发邮件——为那个构建了一个自动化程序。我们实际上正在使用它。 我得出的结论是:每个人都有一些关于能存在什么可以让世界变得更好的想法,但他们的一阶想法通常是愚蠢的,而且他们无法将其投射出来并看到它。但如果他们能从想法变成实际的东西,他们就可以做出反应并进行迭代。给他们一周时间,到周末他们就已经构建出有意义的东西了。
Guillermo:想象一下,如果所有的工作都是这样的。你如何建立一个不直接做工作的劳动力群体——他们所做的只是训练替他们做工作的 agent?你必须提醒人们,举办黑客马拉松。一种文化改变正在发生:许多进来的人直觉上知道他们的工作不是做那件事,而是训练在做那件事的 agent。
Naval:可能会变得更疯狂。也许你只需打开所有的摄像头,agent 会观察发生的一切,看到收发流程效率低下,然后写出应用程序并展示它。
Guillermo:我们很可能会在 AI Gateway 中发布一项功能,让人们可以选择保存输入和输出。然后你可以说,“对于我所有的输入和输出,提取技能——从我的工作中学习,并把它打包成我可以自己下载的技能。” 你可以想象公司里的人希望分享并将这些汇集在一起。
Naval:很有趣——对我来说那是无法想象的,因为我自己的工作不是重复性的。我寻找可以自动化的东西,而在我自己的工作里几乎没有剩下什么可以自动化的了。我希望那也是每个人最终的归宿:你一直在你最大程度的创造力和兴趣区工作。如果还有什么需要自动化的,自动化它——把它从你的生活中赶走,它会解放你去进行创造,那就是你产生所有价值的地方。 在工作职业的心态中很难看到这一点,因为你雇佣人们一遍又一遍地做同样的事情,而这种情况正在消失。这很可怕——人们会问,“我将要做什么?”你将做创造性的事情。你不需要每天都想出一个新东西——那是不可能的——但偶尔你想出一个新东西,就创造了一个杠杆点。
下一部《指环王》
Max:从历史上看,回报可能是 70% 智能,30% agency。现在它将变成 70% agency,30% 智能——随着模型变得更好,这将进一步转变。
Naval:我要提出反面观点,Max。我认为它是 99% 智能和 1% agency——因为 agents 会行使 agency。你会字面意义上地说,“嘿 agent,我正在做聪明的决定和思考伟大的思想;你去实施那些东西吧。”有时我想在一个我正在 vibe-coding 的应用程序上构建一个功能,我会问 agent,“我接下来应该构建什么功能?去看看日志。”
Max:明确地说,我说的是给*人类*的回报。最适合未来的人类是那些更具 agentic 的人——那些能打开 Claude 并思考“我应该构建什么?”,而不是看 YouTube 的人。
Naval:这里有个有趣的实验。我们现在都认识很多以前不写代码现在却在写代码的人——包括很多情况下的我们自己。写代码的人口比例可能增加了 10 倍。
Guillermo:这就是为什么我们的注册人数直线上升的原因——一整类不是工程师的新人群。
Naval:但绝大多数人仍然没有在创建代码。我告诉人们,“Vibe coding 太好玩了。”我有一个游戏小组,以前一起玩第一人称射击游戏来缓解压力;我完全停止了。那个时间转而用去 vibe coding 了。它更具娱乐性,你能从中得到真实的东西,而且反馈循环一样紧密,甚至更好。 我告诉我的朋友们,“你们也应该去 vibe coding,”他们茫然地看着我。对他们来说,这始终是一个黑匣子——他们以为你只是在对着电脑说话。他们没有意识到现在容易多了。所以我们可能从人口的 0.01% 编写代码增加到了也许 1%——称之为 100 倍——但 99% 的人仍然永远不会。
Guillermo:这太疯狂了。就像玩电子游戏——一个很棒的电子游戏——但出来的是真实的东西。
Naval:正常人(normies)已经稍微多参与了一点,但那是通过媒体模型——视频模型。尝试制作视频和图像的人比编写代码和应用的人多。但视频有其自身的问题——总有一天“给我拍一部关于 X 的好电影”会吐出一部好纪录片,但现在它们没有那种品味或判断力。
Max:这是我和 Andrej Karpathy 的一个赌注:哪一年你可以扔进一本书并得到一部电影?我认为快了——他在时间表上已经大幅度缩减。到 2030 年,我们将拥有几十部《指环王》——一些粉丝会说,“他拍错了,我要拍我自己的版本。” 我的一个基准:我是《The Expanse》的超级粉丝。有一个电视剧和九本书;他们拍了前六本书但没拍后三本,而且存在有意义的分歧。我期待着扔进最后三本书,以电视剧为条件,然后说,“生成最后三季。”
Guillermo:那是个很棒的功能。当你说“给我下一部《指环王》”时,我很兴奋——因为我们在想象力和文化方面,还没有取得像《哈利·波特》和《指环王》那样的突破。
你对艺术的定义是什么?
Naval:那么人类独特能做什么?这触及了核心问题。Max,你是一个 AGI 最大化主义者——所以对你来说什么都不是;agents 将会做一切。
Max:我不是反人类的,但如果你的身份认同是你有多聪明多有创造力,你将会度过一段糟糕的时光。
Naval:我仍然在那一边的反面。创造力是让你感到惊讶的东西——你走出系统,做了一些在系统内甚至无法想象的事情。它在训练数据之外,在输入到系统中的 distribution(分布)之外。总会有这方面的空间。
Guillermo:你们有没有注意到每个 Claude 网站看起来都一样?人们总结出了 Claude 网站的样子——衬线字体,棕色和奶油色,带有特定间距的等宽字体。过了一段时间,你会得到一个 distribution,然后你会说,“这没有创造力。这是 Claude 吐出来的 slop。”
Max:明确地说,我不认为是人类对抗计算机——而是人类*加上*计算机对抗*只有*计算机。但是计算机将会产生疯狂的超级刺激;它将制造娱乐。我们在 TikTok 中看到了这个的弱形式。我个人对艺术的定义是有意义的 out-of-distribution behavior(分布外行为)——一些令人惊讶的东西,就像你在 Z 轴上移动。而“有意义”是指它改变了你穿越宇宙的未来轨迹——因为思考它和反思它,你的生活变得有些不同。
Max:我的定义很宽泛。可以有军事演习你会称之为艺术。我们将到处看到 Move 37s。你对艺术的定义是什么?
Naval:我有多个定义。我认为艺术是传达情感——你感受到了一些东西,传递给了另一个人;你创造了一个对象来捕捉你内心感受到的情感。根据那个定义,计算机几乎是没有能力的:如果是完全一样的艺术品但背后没有意图,那是毫无意义的。你可以争辩说自然是艺术——日落——但那是纯粹的智能在没有动机的情况下运作,所以没有自我的卷入,是你的大脑识别出了那个复杂的系统。人类意义上的艺术是:有人感觉到了一些东西并且想要让你感觉到。所以是谁创造了它的身份很重要。
Max:那么一张美丽的照片——如果是一个人拍的,而 AI 生成了精确到最后一个像素的完全相同的照片,那个人拍的照片对你来说是否有更多意义。
Guillermo:你们还记得一两年前的 ControlNet 吗?有一个中世纪村庄的场景,里面有一个漩涡——AI 生成的。那是我第一次看这个并觉得它真的很酷。
Naval:但那没有打破你的前提吗?是一个人想出了训练和 prompt,才得出了那个谜题。未来 AI 有可能自己做到这一点,但我把那归功于想出那个视错觉 ControlNet 想法的人。 标准会被大幅提高——让你感到惊讶将需要越来越多的东西。就像吉卜力工作室:OpenAI 为大家摧毁了吉卜力工作室。没人想再看另一部吉卜力工作室的作品了。它已经被做过了。
Naval:对,但艺术必须是 out of distribution。一旦你到处都看过了海量的吉卜力工作室,它就在 distribution 之内了——不再令人惊讶,艺术价值也就消失了。人类是产生完全超出数据 distribution 的惊喜的人,而且他们是带着意图这样做的——而意图对于意义很重要。拿一个被训练在数学和形式系统内表现完美的 AI 来说。然后 Kurt Gödel 带着完全在系统之外的东西——不完备性定理——出现,跳出系统来打破它。那种事情我不认为 AI 能够达到。意义来源于一个人为了某个目的这样做了并传达了一些东西。
AI 能有新想法吗?
Max:真正深刻的问题是:LLM 或 transformer 是否有可能 go out of distribution——产生一个不在训练集里的新想法?
Naval:训练集是如此之大,很难想象不在其中某个地方的想法。但如果它们存在,它们可能存在于自然领域——物理、互动、感觉、情感、进化——语言不受这些约束。仍然有语言之外的东西,尽管语言是很多东西很好的压缩器。
Max:我认为问题是你如何在没有随机性的情况下 go out of distribution。在 reinforcement learning(强化学习)中,你可以从分布中采样一个动作,并获得随机性,带你走进新领域。人类能 go out of distribution 吗——任何新想法是从哪里来的?我们也依赖于随机性吗?
Naval:我们并不依赖于*纯粹的*随机性。自然选择通过纯粹的随机性起作用——突变一个基因看看会发生什么。但人类似乎能够切断无限的空间,消除大片区域,因此我们的创造力在更大的计划中是有意义的。那是我们独特的能力之一。也许 AI 开始在边缘做到这一点,正如我们在一些数学问题中看到的——但数学是一个非常有边界的领域。目前,真正走出去并给人们带来惊喜仍然是人类的领域。人类加 AI 是所有事物发展的方向。没有 AI 的人类,算了吧;纯粹的 AI 还没到那一步——但人类加 AI,我们正处于那个时代,我打赌我们在那里停留的时间会比人们想象的要长。
大量的小型团队
Naval:人类将具有巨大的价值——更多的价值。在这里的每个人,我们的生产力都突破了天际。基础经济学说,当生产力更高时,你会更富有,你会雇佣*更多*的人,而不是更少。如果有人对 AI 非常在行,且非常聪明和有创造力,我比以往任何时候都更想雇用他们,为了那个杠杆。
Guillermo:那是一个新要求。我们正在雇用初级和超级高级的人才,只要他们非常擅长使用 agents 并且能快速适应。我的假设是我们最终会得到数量更多、规模更小的团队。任何给定任务所需的人数大幅下降。那些只看到一阶效应的人说,“所有的工作都消失了——我可以用两个人而不是一千个人制造喷气发动机;998 个工作消失了。” 但这实际上意味着你可以创造许多*不同*的喷气发动机。我们将迎来创业精神的大爆发、创始人的大爆发,以及数量非常庞大的小型团队。
Naval:AI 提供了基础层面的智能和领域知识并扫除了行业黑话;现在 agents 提供了大量的 agency。所以剩下的是创造力、品味——是的,你需要足够的 agency 来开始并坚持下去,但你不需要花二十年去学习一件事才能做出贡献。那个障碍被降低意味着通才(generalists)正在迎来他们的黄金时代。 说到底,我们都是通才——我们喜欢思考一切。Max 坐在这里谈论意识、FDA、脑科学和创造力。在 Twitter 上喜欢说“专家、证书、来源”的那些人是受到伤害的人,因为专业知识现在变得不那么重要了。 你花了五年或十年拿了个博士学位——希望它培养了你的创造力、直觉、品味和判断力,因为如果它所做的只是帮你记住黑话和脚手架,AI 会直接切断那个。它是一个为头脑准备的自行车,且被加速了。所以是拥有 AI 的人对抗没有 AI 的人——你能为自己做的最好的一件事就是非常熟练地使用这些工具,并永远了解它们能做什么和不能做什么的边界。而那是一个移动的靶子。