AI 能从建筑图纸中识别什么信息？

通过多模态大模型，AI 可以识别每个地块的朝向（东南西北）和是否为拐角地（corner lot），准确率可达到人工复核级别。

这套系统用了什么技术栈？

核心使用 Gemini 3.5 Flash 和 GPT-5.5 的多模态能力，结合 PyMuPDF 做 PDF 文字提取，再通过业务规则和二次复核提高准确率。

前段时间接到一个海外项目的需求：从土地分割图纸（Subdivision Plan）里，自动识别每块地的朝向和是否是拐角地。

听起来不难？打开图一看就傻了——每张图上几十个地块，北向标每家公司画法不一样，道路名称散落在各个角落，有些地块斜着切，45度以内算哪个方向全靠人肉判断。

这活儿，一张图人工要看半小时。一个项目几十张图。业务方问：能不能让 AI 来做？

AI重塑建筑行业：从图纸识别到智能分析

所谓”苦差事”，就是那些规则明确但过程枯燥、需要反复看图比对的工作。地块朝向识别就是典型——

规则不复杂，难在量大、容易看花眼、不同图纸格式差异大。

以前的做法： 雇人，一张一张看，一格一格填 Excel。速度慢、容易出错、成本高。

传统人工分析 vs AI智能识别：效率天差地别

最初我也想过——直接把图扔给大模型，问它”这些地块朝哪”。

结果惨不忍睹。 模型会把页面标题里的数字当成地块编号，把”1302 Sales Information”识别成”Lot 1302”。朝向判断更是随机——北向标都没看清就开始猜。

问题出在哪？建筑图纸不是普通图片。 它是矢量结构、文字标注、几何边界和符号系统的复合体。纯视觉识别不够，必须把文字解析、图像识别和业务规则结合起来。

所以我重新设计了一套混合流水线——

AI CAD 分析流水线：上传→提取→识别→校验→输出

整套系统的核心思路是：不让模型直接猜整张图，而是把确定性的部分先做掉，只让模型处理它最擅长的视觉判断。

关键设计：先用 PyMuPDF 提取 PDF 内部的文字位置信息，把道路名称和坐标锚点作为”提示”喂给模型。模型不是从零开始看图，而是带着”地图”去验证。

你看这张图，已知 MAPLE STREET 在页面左侧（坐标 x=120, y=340），
北向标在右上角指向上方。请判断 Lot 301 的正面朝向。

这比”请看图回答”靠谱得多。

单次模型调用的准确率大概在 80%——对于商业交付来说不够。所以我加了两层保险：

第一层：结构化规则审计。 模型说某个地块是拐角地？检查它有没有给出两条相邻道路名。如果只有一条路或者路在对面，直接标记为”需要人工复核”。

第二层：二次模型复核。 对所有识别结果再跑一轮 review，让模型自己检查——朝向和北向标有没有矛盾？拐角地有没有两条路的证据？信心低于 0.75 的自动标红。

双模型协作 + 二次复核机制

模型	角色	特点
Gemini 3.5 Flash	主力识别	视觉理解强，JSON 输出稳定
GPT-5.5	备选/对照	推理能力强，处理复杂边界情况

系统同时支持两个模型，可以切换或对比。实际跑下来，Gemini 在图像理解上略胜一筹，GPT 在边界条件推理上更稳。

输出的每条结果都带 confidence 信心值和 evidence 判断依据——不是给你一个答案就完事，而是告诉你”我为什么这么判断”。

光有模型能力不够。使用者不会用命令行，他们需要的是——

上传 PDF → 等几分钟 → 看结果表 → 点击修改 → 下载 CSV。

所以我搭了一个完整的 Web 平台，部署在 lot.zaokit.com：

这套东西跑起来以后，原来一张图半小时的活，现在上传后等两三分钟自动出结果。 人只需要看标红的”需要复核”行，确认一下就行。

我做的只是建筑行业一个很小的切面。往大了看，AI 对这个行业的改造已经全面铺开——

AI正在重塑建筑行业的六大核心领域