两个月前,我花了整整两周时间,用 Pencil 和 Claude Code 深度测试了市面上能找到的所有「AI 做 PPT」的开源方案。
目标很简单:2026 年了,AI Native 到底能不能做出既有设计感、又能输出可编辑 PPTX 的企业级方案?
我测了 6 个:ppt-master、bggg-skills、Anthropic 官方 PPTX Skill、Mck-ppt-design-skill、guizang-ppt-skill、notebooklm。
结论先放:ToB 企业生产场景,能打的只有 Zaokit。做企业定制,也只有 Zaokit。

一、三条技术路线,各有各的死穴
在拆解具体项目之前,先说清楚 AI 做 PPT 的三条技术路线。理解了路线,才能理解为什么这些项目各有各的天花板。
路线一:python-pptx 代码直出。 AI 生成 Python 代码,调用 python-pptx 库逐元素构建幻灯片。优势是输出原生 PPTX,完全可编辑;死穴是设计感极差——每个文本框的位置、大小、颜色都要用代码精确指定,AI 在视觉布局上的能力远不如人类设计师。Mck-ppt 和 bggg-skills 走的就是这条路。
路线二:HTML 渲染转截图。 AI 生成 HTML 页面,用 Playwright 截图后嵌入 PPTX。优势是视觉效果精确,CSS 能实现任何设计;死穴是不可编辑——截图变成了图片,用户拿到的 PPTX 里每一页都是一张位图,改一个字都得重新生成。guizang-ppt 走的是纯 HTML 路线,甚至不输出 PPTX,而是单文件 HTML。
路线三:模板驱动填充。 预制一套 PPTX 模板,AI 解析模板结构后填入内容。优势是风格统一、品牌一致性好;死穴是受限于模板——模板有多好,输出就有多好,模板覆盖不到的场景就做不了。Anthropic PPTX Skill 的 editing 模式走的是这条路。
三条路线的核心矛盾只有一个:设计感和可编辑性无法兼得。 这是所有开源方案的结构性困境。
二、六大方案逐个拆解:每个都试了,每个都有坑
guizang-ppt-skill(⭐ 5.2k)
歸藏做的杂志风 HTML deck,视觉上确实惊艳——衬线大标题、WebGL 流体背景、10 种页面布局、5 套主题色。适合线下分享和 demo day。但问题是:它输出的是 HTML,不是 PPTX。 企业客户拿到一个 HTML 文件,打不开、编辑不了、塞不进公司的 PPT 模板里。设计感满分,企业可用性零分。
Mck-ppt-design-skill(⭐ 122)
麦肯锡风格的 python-pptx 设计系统,67 种布局方法、5 阶段 Harness 工程流程、机器可读的质量门禁。工程化程度是所有方案里最高的——从 v1.x 到 v2.3.3-harness,把 80% 的计算从 GPU(LLM 推理)迁到了 CPU(确定性 Python 执行)。但设计感仍然受限于 python-pptx 的表现力天花板,扁平色块 + 基础图表就是极限。
bggg-skills(⭐ 171)
饼干数据做的 Codex Skills 集合,核心亮点是 bggg-creator-image2ppt——把图片、截图、HTML 设计稿转成可编辑 PPTX。思路很好:先用 AI 生成好看的设计图,再逆向拆解成 PPTX 原生元素。但逆向还原的精度是硬伤——复杂布局的文本框还原经常错位,渐变和阴影效果丢失严重。
Anthropic PPTX Skill(官方)
Anthropic 官方出的基础能力,支持从模板编辑和 pptxgenjs 创建两种模式。设计理念很好——「Don’t create boring slides」「Pick a bold color palette」——但这只是指导原则,没有内建设计系统。能力上限取决于 AI 当次对话的发挥,质量波动很大。
ppt-master / notebooklm
偏轻量级的方案。ppt-master 是基础的代码生成框架,notebooklm 的 PPT 能力更像是附带功能。在企业场景下基本不可用——没有设计系统、没有品牌管理、没有质量保障。
结论很清楚:没有一个方案能同时做到「高设计感」和「高可编辑性」。 右上角的「理想区域」是空的——这正是企业客户真正需要的位置。
三、企业场景的需求金字塔:开源方案为什么够不到顶层
聊完技术路线和具体项目,说一个更根本的问题:企业客户对 PPT 的需求,远不止「能生成」这三个字。
从底到顶:
- 可编辑 PPTX——最基本的输出格式要求,客户拿到后能用 PowerPoint 修改
- 品牌一致性——字体、配色、Logo 位置要符合企业 VI 标准
- 数据可视化——图表不是装饰,是帮客户讲故事的核心元素
- 多语言支持——跨国企业需要中英日韩多版本
- 设计感——不是「能看」,是「拿出去不丢人」,甚至「拿出去有面子」
开源方案能覆盖到哪一层?大多数卡在第一层到第二层之间。 Mck-ppt 的 Harness 工程能到第三层,但再往上就力不从心了。
为什么?因为开源方案本质上是开发者工具,不是产品。它给你一把锤子和一堆钉子,但不帮你建房子。企业客户不需要锤子,他们需要直接住进去的房子。
这就是 Zaokit 存在的意义:不是做开发者工具,而是做产品化的企业 PPT 方案——内建设计系统、版式引擎和输出管线,用户输入内容,直接拿到有设计感的可编辑 PPTX。
四、AI Native PPT 的正确架构:2026 年的答案
测完这 6 个方案之后,我对「AI Native PPT 应该怎么做」有了更清晰的判断。
正确的架构应该是四层:
- 内容理解层:AI 分析用户输入的文本、数据、图片,提取关键信息和叙事结构
- 设计系统层:内建配色方案、字体搭配、布局规则、品牌 VI 约束——不是靠 AI 临场发挥,而是确定性的设计规范
- 版式引擎层:根据内容类型和信息密度,自动选择最合适的页面布局,并处理文本溢出、图片裁剪、元素对齐等细节
- 输出管线层:生成原生 PPTX(不是截图),每个元素都可编辑,同时支持 PDF、HTML5 等多格式导出
关键洞察是:设计系统必须是确定性的,不能靠 AI 每次重新「创造」。 Mck-ppt 的 v2.0 做对了一件事——把 80% 的计算从 GPU 迁到 CPU,用确定性 Python 代码替代 LLM 推理。但它只做到了工程层面,设计层面仍然缺一个真正的设计系统。
我之前写过 Agent + Skill 架构——Skill 是 AI 的手脚,Agent 是大脑。但在 PPT 这个场景里,光有大脑和手脚不够,你还需要一双审美的眼睛。 这双眼睛,就是内建的设计系统。
写在最后
两个月的深度测试,6 个开源方案,上百次 prompt 调试,结论只有一句话:
AI PPT 的问题从来不是「能不能生成」,而是「生成的东西能不能直接用在企业场景里」。 设计感和可编辑性的矛盾,不是靠更好的 prompt 或更强的模型能解决的——它需要产品级的架构设计。
我一个人打造的 Zaokit AI 产品 正在内测,2026 年 5 月 31 日前 1000 名用户赠送价值 150RMB 的 Pro 计划,助力大家高效完成图文创作和 PPT 生成。唯一官方网站:zaokit.app。
最后,如果你认可 Zaokit AI 的产品理念,欢迎后台留言加入我们的社群。我们不卖课、不割韭菜,只聚焦 ToB 企业场景的 AI 落地实战。 希望在这里,能给你带来不一样的思维火花和真实的商业碰撞。