Gemma 4 是什么？和 Gemini 有什么关系？

Gemma 4 是谷歌基于 Gemini 3 技术发布的开源模型家族，采用 Apache 2.0 许可证。包含 E2B、E4B、26B MoE 和 31B Dense 四个版本，覆盖从手机到工作站的全场景。

Gemma 4 可以在本地运行吗？需要什么硬件？

可以。E2B/E4B 可在手机、树莓派等边缘设备运行；26B MoE 和 31B Dense 可在消费级 GPU 和工作站运行。支持 Ollama、vLLM、llama.cpp 等本地推理工具。

凌晨刷到消息，睡意全无。

谷歌没有任何预热，直接甩出了 Gemma 4 全家桶——四个模型，Apache 2.0 开源，原生支持函数调用，从手机到工作站全覆盖。

不是 demo，不是预览版，是可以立刻下载、本地跑、商用的正式发布。

当 OpenAI 和 Anthropic 还在靠 API 调用按 Token 收费时，谷歌直接把模型送到了你的设备上。推理成本？接近于零。这不是技术发布——这是一次商业模式层面的降维打击。

谷歌凌晨王炸：Gemma 4 开源发布

Gemma 4 不是单一模型，是一个完整的模型家族。四个版本，各有定位：

模型	参数量	定位	上下文窗口
E2B	等效 2B	手机、IoT、边缘设备	128K
E4B	等效 4B	手机、树莓派、Jetson	128K
26B MoE	26B（每 Token 激活 3.8B）	消费级 GPU、离线工作站	256K
31B Dense	31B 全量激活	高性能推理、复杂任务	256K

E2B/E4B 能在手机上跑，还支持原生音频输入。 26B MoE 用 MoE 架构，每个 Token 只激活 3.8B 参数，效率拉满——跑出来的效果是 31B 的 97%，但推理成本砍了一大半。

31B Dense 是旗舰，在 Arena AI 排行榜开放权重模型里排第三。AIME 2026 数学推理 89.2%，LiveCodeBench v6 编程能力 80%，GPQA Diamond 科学推理 84.3%。

一个模型家族覆盖手机到服务器，这不是在发产品——这是在铺生态。谷歌要的不是某个场景的胜利，是全场景通吃。

Gemma 4 模型家族全景：从边缘到旗舰

Gemma 4 全系标配两个能力：原生函数调用 和 结构化 JSON 输出。

这意味着什么？模型不只是能聊天——它可以主动调用工具、查询 API、执行代码、浏览网页。 不需要云端转发，不需要第三方中间件，模型本身就是一个 Agent。

配合 Ollama、vLLM、llama.cpp 等工具，一条命令就能在本地把 Gemma 4 跑起来——而且它还支持多模态输入（文本、图片、视频、音频），上下文窗口最长 256K Token。

中文文档也已同步发布。谷歌这次不是只面向英文开发者——中文生态的接入门槛，被拉到了和英文一样低。

当模型能在本地运行并直接调用工具时，「AI Agent」就不再是一个需要云端支撑的概念。它变成了每台设备上的原生能力。

本地 AI Agent 架构：Gemma 4 脱离云端

Gemma 4 真正的杀伤力不在技术参数——在于它把推理成本压到了接近于零。

现有 AI 产品的商业模式大多建立在一个前提上：用户每次调用模型，都要付费。OpenAI 靠 API 调用收费，Anthropic 靠订阅 + API 双轨制，国内厂商也在跟进类似模式。

但 Gemma 4 打破了这个前提：

市场的反应很直接——当你有一个免费的、可商用的、能力不差的模型可以本地跑时，你还会每月付 20 美元订阅 ChatGPT 吗？

这不是说 OpenAI 和 Anthropic 会立刻消失。但它们的定价权，从今天开始被稀释了。 开源模型的性能追上闭源模型只是时间问题，而 Apache 2.0 许可意味着——任何人都可以拿 Gemma 4 去做产品、做服务，不需要向谷歌交一分钱。

谷歌不是在做慈善。它的真正意图是：用免费模型摧毁竞争对手的收入来源，把流量引回自己的云和搜索生态。这是一场用开源打闭源的战争。

推理成本归零：API 收费模式面临的冲击

发布当天，V2EX 上就有人用「洗车测试」验证 Gemma 4 的推理能力——「你的车需要去 50 米外的洗车店，你应该走路还是开车？」结果如下：