翁家翌在 OpenAI 的主要贡献是什么？

他是 Post-Training 团队核心研究工程师，贡献集中在强化学习、post-training 和 infra。从 ChatGPT、GPT-4 到 GPT-5，他都是关键贡献者。

他为什么选择 OpenAI 而不是谷歌？

不想当螺丝钉，要去人才密度最高的地方。

学得慢没关系：他用 iPad 裸打代码，然后成了 GPT-5 背后的核心工程师

Q: 他为什么选择 OpenAI 而不是谷歌？

不想当螺丝钉，要去人才密度最高的地方。

昨天看完了 OpenAI 工程师翁家翌（@Trinkle23897）的访谈，两小时下来最大的感受：求知欲旺盛、学习能力极强。

他 2022 年加入 OpenAI Post-Training 团队。ChatGPT、GPT-4、GPT-4o、GPT-5——这些关键跃迁背后，都有他的身影。核心贡献三个词：强化学习、post-training、infra。

一个自认学得比别人慢的人，如何成为全球最强 AI 公司的核心工程师？不是天赋——是方法论。

从清华到 OpenAI：翁家翌的技术跃迁之路

一、学得慢？那就用方法碾压

他坦言需要比常人花 2–3 倍时间理解底层逻辑。但他没把这当缺陷——他把这变成了方法论。

正反向筛选，只在对的赛道上押注：

正向——持续投入	反向——果断放弃
奥数：投入产出比高	篮球：被按着打
编程：天然契合	跆拳道：实战被揍
数学/CS	语文：兴趣不大

最让我震撼的细节——他用 iPad 的 Safari 裸打代码。 没有编辑器、没有高亮、没有补全。这种方式强迫他在大脑中完整构建程序逻辑，每一行代码先在脑子里跑一遍。

策略简单粗暴：学得慢就提前学。 初二学完高中数学，初三开始啃微积分。GPA？最短时间达到够用成绩就行，不浪费生命。

正反向筛选构建技能树

二、当所有人在卷 GPA，他在卷 GitHub

清华默认评价体系：GPA 越高越好，PhD 远比 Master 好。翁家翌停下来，重新定义了自己的计分板。

他认同导师的标准：论文、比赛名次、三位数以上的 GitHub Star。 于是他开源了 Tianshou（强化学习库）和 EnvPool（超快 RL 环境执行器），收获数千 Star。同时把清华期间所有作业和材料全部开源，打破信息壁垒。

他的终极目标：最大化自己在 OpenAI Blog 上出现名字的次数。 他用 RL infra 绑定核心管线，把个人产出 scale 到所有核心产品。从他的 CV 可以看到，参与项目清单几乎就是一部大模型进化史。

构建自己的评价体系

他不在意发了多少论文——更在意有多少人真正记得、使用他做的东西。

三、四个 offer，他选了最不”确定”的

2022 年，ChatGPT 爆发前，他手握 OpenAI、幻方、谷歌、英伟达 的 offer。选择逻辑只有一条：哪里人才密度最高？

谷歌太大容易当螺丝钉；幻方做 RL infra 是备选；OpenAI 人才密度最高、scope 最大。 他不读 PhD 的逻辑也相通——“教 researcher 做好 engineering，要远比教 engineer 做好 research 难得多。” 他更看重 Infra，因为 infra 离真实产品最近。

关于开源与闭源的矛盾，他的回答很务实：对 OpenAI 来说生死线是 infra 迭代速度。现阶段闭源是竞争必需。 但如果未来创业，他大概率选产品方向——技术复杂度不重要，精准抓到用户需求才重要。

不当螺丝钉：选择人才密度最高的地方