昨天看完了 OpenAI 工程师翁家翌(@Trinkle23897)的访谈,两小时下来最大的感受:求知欲旺盛、学习能力极强。
他 2022 年加入 OpenAI Post-Training 团队。ChatGPT、GPT-4、GPT-4o、GPT-5——这些关键跃迁背后,都有他的身影。核心贡献三个词:强化学习、post-training、infra。
一个自认学得比别人慢的人,如何成为全球最强 AI 公司的核心工程师?不是天赋——是方法论。

一、学得慢?那就用方法碾压
他坦言需要比常人花 2–3 倍时间理解底层逻辑。但他没把这当缺陷——他把这变成了方法论。
正反向筛选,只在对的赛道上押注:
| 正向——持续投入 | 反向——果断放弃 |
|---|---|
| 奥数:投入产出比高 | 篮球:被按着打 |
| 编程:天然契合 | 跆拳道:实战被揍 |
| 数学/CS | 语文:兴趣不大 |
最让我震撼的细节——他用 iPad 的 Safari 裸打代码。 没有编辑器、没有高亮、没有补全。这种方式强迫他在大脑中完整构建程序逻辑,每一行代码先在脑子里跑一遍。
策略简单粗暴:学得慢就提前学。 初二学完高中数学,初三开始啃微积分。GPA?最短时间达到够用成绩就行,不浪费生命。

二、当所有人在卷 GPA,他在卷 GitHub
清华默认评价体系:GPA 越高越好,PhD 远比 Master 好。翁家翌停下来,重新定义了自己的计分板。
他认同导师的标准:论文、比赛名次、三位数以上的 GitHub Star。 于是他开源了 Tianshou(强化学习库)和 EnvPool(超快 RL 环境执行器),收获数千 Star。同时把清华期间所有作业和材料全部开源,打破信息壁垒。
他的终极目标:最大化自己在 OpenAI Blog 上出现名字的次数。 他用 RL infra 绑定核心管线,把个人产出 scale 到所有核心产品。从他的 CV 可以看到,参与项目清单几乎就是一部大模型进化史。

他不在意发了多少论文——更在意有多少人真正记得、使用他做的东西。
三、四个 offer,他选了最不”确定”的
2022 年,ChatGPT 爆发前,他手握 OpenAI、幻方、谷歌、英伟达 的 offer。选择逻辑只有一条:哪里人才密度最高?
谷歌太大容易当螺丝钉;幻方做 RL infra 是备选;OpenAI 人才密度最高、scope 最大。 他不读 PhD 的逻辑也相通——“教 researcher 做好 engineering,要远比教 engineer 做好 research 难得多。” 他更看重 Infra,因为 infra 离真实产品最近。
关于开源与闭源的矛盾,他的回答很务实:对 OpenAI 来说生死线是 infra 迭代速度。现阶段闭源是竞争必需。 但如果未来创业,他大概率选产品方向——技术复杂度不重要,精准抓到用户需求才重要。

四、宿命论者的生存哲学
播客最后问:如果 AI 能解决一个世界难题,你想解决什么? 他说:“如何预测未来。”
他认为人活在一个确定性的马尔可夫过程里——大脑里想什么、下一个单词说什么,在宇宙大爆炸那刻就已确定。人没有自由意志。
既然是宿命,为什么还要投资未来?
“未来的我帮助过去的我完成决策。” 高三蹦出的”要创造影响力”的想法,是未来的他给过去的自己发送的信号。既然一切确定,那就忘掉这件事,尽情享受。西西弗斯是幸福的——活着是在确定性的循环里寻找当下的意义。

写在最后
播客只有两小时,强烈推荐:完整版。
我一个人打造的 Zaokit AI 正在内测,2026年4月30日前 1000 名用户赠送价值 150 RMB 的 Pro 计划,助力大家高效完成图文创作和 PPT 生成,唯一网站:zaokit.app。
你不需要学得最快——找到自己的赛道,构建自己的评价体系,持续输出别人无法替代的价值。这才是从清华到 OpenAI 的底层逻辑。