Transformer论文诞生与八子传奇
2017年夏天,在谷歌大脑(Google Brain)一间平常的办公室里,八个年轻人敲完了论文《Attention Is All You Need》的最后一个字符。当时,几乎没人意识到这篇论文会在接下来几年引爆万亿美元的AI革命。用卢卡斯·凯泽(Łukasz Kaiser)的话说:“ 对我们来说,那不过是办公室里极其普通的一天(just another day in the office)。 ”这八位作者后来成为了硅谷历史上最传奇的“Transformer八子”。
如今的研究与思考
将近十年后的今天,身为OpenAI资深科学家的卢卡斯每天用Cursor来协助研究。他让AI做的第一件事,是花两天时间完美复现他十五年前因丢源码而无法运行的学术论文。他坦言:“ 我们其实根本还没有参透 ‘学习’ 本身的真正奥秘。 ”在他眼里,当下行业陷入奇怪的盲目狂热。大模型像低效学习者,要吞噬万亿级语料、穷尽错误表象规律,才被动“理解”底层概念,这与人类学习方式背道而驰,也让当前的Scaling Law撞上效率冰山。
对话要点速览
去年,卢卡斯与CSDN高级副总裁李建忠对谈时指出“推理模型目前仅相当于极早期的RNN阶段”。一年过去,大模型预训练放缓,行业转向Agent落地和工程化探索,印证了他的“冷思考”。对话要点如下:大语言模型能学会概念,但要穷尽其他可能,用“外星人”式思维泛化,且无法觉察是否走进死胡同。随着更多人将系统融入工作,积累真实人类工作流数据,若将强化学习应用其中,或许带来惊喜。AI行业会经历技术海啸,要押注代表“明天”的趋势。OpenAI核心力量被ChatGPT牵制时,Anthropic专注“代码”战场,筑起护城河。
泛化问题探讨
主持人以“泛化”开场,询问卢卡斯对单靠推理实现泛化的看法有无变化。卢卡斯表示,Transformer结合推理和智能体,能力惊人,但与人类仍有差距,我们直觉认为它应更聪明,能用更少数据泛化。大语言模型需穷尽所有可能才理解底层逻辑,与人类学习方式不同。目前虽有直觉认为存在其他高效泛化机制,但捕捉时又会消失,Transformer和寻找替代方案的路线都在成长,不少实验室探寻“后Transformer时代”新架构,谁能胜出尚不确定。
新兴实验室探索原因
主持人询问新兴实验室探索替代方案的原因,卢卡斯认为很大程度是直觉,虽氛围可能在派对和闲聊中发酵,但也包含本质内容。杨立昆多年前就指出模型未真正模仿人类大脑,人类能用少数据做复杂事情,模型缺失底层核心能力,存在未发掘的科学规律。反方认为模型未针对“小数据训练”优化,有大量数据可用。目前难以给出科学结论,但直觉让我们觉得机器学习有未知领地待开发。
Transformer的魅力与局限
Transformer推理能力能解决前沿数学问题,让卢卡斯惊叹,但他认为我们未参透“学习”奥秘,模型学习需大量数据和算力,距终极真理还差一步,这有待时间验证。
数据瓶颈与挑战
有人认为模型与人类不同也无妨,有海量数据且方法有效就行,但有些领域数据匮乏,如新药研发。卢卡斯认为所有瓶颈将演变成数据受限问题,物理世界数据扩展效率低,如Waymo自动驾驶汽车无法将城市施工区经验泛化到高速公路施工区,而人类不会有此困惑。
Transformer改进方向
主持人询问能否通过改进Transformer解决问题,卢卡斯表示机器学习研究方向广,可能需调整架构、数据、损失函数或优化过程。Transformer伟大,但需与其他技术配合。他从循环神经网络(RNN)开始研究,认为循环机制有逻辑美感,推理能力让其重回舞台中央。一些循环模型在测试中表现亮眼,“后Transformer架构”尝试将循环机制与大语言模型融合,值得期待。
智能体提升工作效率
今年智能体爆发,卢卡斯认为这是他从事机器学习研究二十年来工作方式最大的变革。他用Cursor复现老论文,效率提升5到10倍,还能并行实验。他认为使用智能体让他对研究项目底层掌控力更高,研究更享受。
AI达到研究员助理水平情况
主持人询问AI达到研究员助理水平的情况,卢卡斯认为Cursor表现接近实习生,但需紧盯产出,目前未达到独立研究员高度。
实现突破的可行路径
主持人询问实现突破的路径,卢卡斯回顾自己对“长上下文”和“记忆机制”的研究,认为grep等工具是长上下文的解法,加入少量强化学习,如Cursor的上下文压缩能力就很出色。对于AI能否进化为独立研究员,有人悲观,认为需新架构;有人乐观,认为收集交互数据训练可让AI表现像学者。
方法未奏效的原因
主持人询问方法未奏效的原因,卢卡斯认为大家在该方向投入心血不足,真正的“Cursor时代”从去年圣诞节开始,系统蜕变原因复杂,难以归结为单一因素。目前大家忙于商业化推广,没时间进行元层面理论解构,而人类学习研究方式或许能给机器学习启示。
强化学习在不可验证领域的进展
主持人询问强化学习在不可验证领域的进展及下一个突破领域,卢卡斯认为在法律、医学等领域已取得不错进展,可验证性是渐变的,大模型在主观艺术领域也能捕捉细节,但缺乏“品味”。可通过收集人类喜好提升模型品味,但目前强化学习范式存在补漏洞的循环,若有像人类大脑的核心学习机制更好。
强化学习的障碍与成本
主持人询问是否有强化学习无法逾越的鸿沟,卢卡斯认为目前无绝对障碍,但要考虑商业和经济成本,现有技术路径需昂贵的闭源基座模型,微调成本高,大家期待模型更自主解决问题。
大模型的通用泛化能力
主持人询问大模型在强化学习维度能否自发涌现跨领域通用泛化能力,卢卡斯表示已有迹象,但边界比预期窄,模型泛化曲线呈“锯齿状”,与人类泛化常理错位,使用时需保持警惕。
应用型公司的抉择
主持人询问应用型公司的抉择,卢卡斯认为强大的基座模型能让应用开发更顺利,虽小模型有进步,但复杂问题仍需大模型,不过大模型训练和推理成本高。
硬件对算法的影响
主持人询问硬件对算法的影响,卢卡斯表示硬件性能升级体现在FLOPs和内存访问带宽上,如今硬件门槛降低,释放了科研人员创造力,让科研更便捷,“硬件架构跟不上科研思路”的瓶颈在消融。
大众化科研的未来
主持人询问大众化科研能否延续,卢卡斯表示取决于心情,乐观时认为科学史证明优美思想诞生于纯粹研究,行业实验室生态多元,小尺度研究也能有前沿成果,虽不是所有灵感都能成功,但研究起点已提升。
多模态模型的发展
主持人询问多模态模型的发展,卢卡斯认为大家正在取得突破,解法可能指向JEPA方向,现有模型机制未触及人类交互学习核心,行业涌现新架构思路,但目前缺乏支持“并行吸收”的革命性架构升级。
OpenAI的抉择与发展
主持人询问OpenAI的关键抉择,卢卡斯表示任职期间,OpenAI决定全力押注“推理”,虽初期模型有问题,但最终取得领先优势。他希望OpenAI等实验室保持魄力,拥抱未来。
新兴实验室的优势与挑战
主持人提及新兴实验室,卢卡斯认为其有合理性,但离开主力实验室会面临显卡采购问题,行业生态多元健康。目前AI技术红利未榨干,外界对AI发展看法有误,代码智能体是AGI雏形。
代码产品的竞争关键
主持人询问代码产品竞争关键,卢卡斯认为关键是跨越到其他工作领域,Anthropic让Claude承载跨界愿景。
说服大众建立信任的问题
主持人询问如何说服大众建立信任,卢卡斯认为Anthropic选择专注“代码”战场是明智战略,AI行业变化快,要押注未来趋势。
平衡当下与未来的关系
主持人询问如何平衡当下业务与未来探索,卢卡斯认为取决于团队基因、体量、资金和战略眼光,Google多线布局有优势也有不足。
Google的追赶情况
主持人询问Google的追赶情况,卢卡斯认为在常规聊天对话上已齐头并进甚至超越,但在代码项目上还有差距,多线布局有防护网但难获“首发夺魁”成就。
开源与闭源模型的差距
主持人询问开源与闭源模型差距,卢卡斯认为目前模型体量决定实力上限,蒸馏版与完整版有差距,但开源生态有支持,闭源实验室也会开拓前沿,两者相互牵制是行业主旋律。
对AI看法的改变
主持人询问对AI看法的改变,卢卡斯表示没想到这么快拥有媲美人类助理的代码生成实力,这改变了他的科研范式。
对安全风险的担忧
主持人询问对安全风险的担忧,卢卡斯认为应关注现实安全隐患,也不能忽视“存在性风险”,要捍卫核心控制权,目前未感受到针对个体的实质性威胁。
Andrej Karpathy与Anthropic的合作
主持人询问Andrej Karpathy与Anthropic的合作,卢卡斯表示开发者助手有学术价值,但寻找“后Transformer”突破艰难,虽乐见其成,但要理性看待。
是否创业的考虑
主持人询问是否创业,卢卡斯表示对自己选择的道路欣慰,自己是迷恋底层技术的极客,尊重创业者。
给读者的寄语
主持人请卢卡斯给读者推荐内容或寄语,卢卡斯鼓励研究人员勇敢检验奇思妙想,相互学习,探索全新概念,不要盲从主流范式,利用好时代机遇,探索未知荒野。