前段时间接到一个海外项目的需求:从土地分割图纸(Subdivision Plan)里,自动识别每块地的朝向和是否是拐角地。
听起来不难?打开图一看就傻了——每张图上几十个地块,北向标每家公司画法不一样,道路名称散落在各个角落,有些地块斜着切,45度以内算哪个方向全靠人肉判断。
这活儿,一张图人工要看半小时。一个项目几十张图。业务方问:能不能让 AI 来做?

一、建筑行业的”苦差事”:没人愿意干,但必须有人干
所谓”苦差事”,就是那些规则明确但过程枯燥、需要反复看图比对的工作。地块朝向识别就是典型——
- 先找到图上的北向标(每家设计公司画的样式都不同)
- 再看每个地块的正面临哪条路
- 从地块内部向路的方向看出去,判断朝哪个方位
- 不是正方向的,以 45 度为界归到最近的东/南/西/北
- 两边临路且有缺口的,标记为拐角地
规则不复杂,难在量大、容易看花眼、不同图纸格式差异大。
以前的做法: 雇人,一张一张看,一格一格填 Excel。速度慢、容易出错、成本高。

二、不是”让 AI 看一眼”那么简单
最初我也想过——直接把图扔给大模型,问它”这些地块朝哪”。
结果惨不忍睹。 模型会把页面标题里的数字当成地块编号,把”1302 Sales Information”识别成”Lot 1302”。朝向判断更是随机——北向标都没看清就开始猜。
问题出在哪?建筑图纸不是普通图片。 它是矢量结构、文字标注、几何边界和符号系统的复合体。纯视觉识别不够,必须把文字解析、图像识别和业务规则结合起来。
所以我重新设计了一套混合流水线——
三、五步流水线:文字 + 视觉 + 规则 + 复核

整套系统的核心思路是:不让模型直接猜整张图,而是把确定性的部分先做掉,只让模型处理它最擅长的视觉判断。
| 步骤 | 做什么 | 用什么 |
|---|---|---|
| PDF 文字提取 | 读出道路名称、地块编号、坐标标注 | PyMuPDF 矢量解析 |
| 高清渲染 | 把 PDF 页面转成高分辨率 PNG | pdftoppm 300dpi |
| 多模态分析 | 看图 + 读文字,识别北向标、道路、地块边界 | Gemini 3.5 Flash / GPT-5.5 |
| 规则校验 | 排除非地块编号、验证拐角地必须双临路 | 硬编码业务规则 |
| 二次复核 | 对低信心结果再跑一轮审查 | 同一模型,温度设为 0 |
关键设计:先用 PyMuPDF 提取 PDF 内部的文字位置信息,把道路名称和坐标锚点作为”提示”喂给模型。模型不是从零开始看图,而是带着”地图”去验证。
你看这张图,已知 MAPLE STREET 在页面左侧(坐标 x=120, y=340),
北向标在右上角指向上方。请判断 Lot 301 的正面朝向。
这比”请看图回答”靠谱得多。
四、双模型 + 二次复核:不靠猜,靠交叉验证
单次模型调用的准确率大概在 80%——对于商业交付来说不够。所以我加了两层保险:
第一层:结构化规则审计。 模型说某个地块是拐角地?检查它有没有给出两条相邻道路名。如果只有一条路或者路在对面,直接标记为”需要人工复核”。
第二层:二次模型复核。 对所有识别结果再跑一轮 review,让模型自己检查——朝向和北向标有没有矛盾?拐角地有没有两条路的证据?信心低于 0.75 的自动标红。

| 模型 | 角色 | 特点 |
|---|---|---|
| Gemini 3.5 Flash | 主力识别 | 视觉理解强,JSON 输出稳定 |
| GPT-5.5 | 备选/对照 | 推理能力强,处理复杂边界情况 |
系统同时支持两个模型,可以切换或对比。实际跑下来,Gemini 在图像理解上略胜一筹,GPT 在边界条件推理上更稳。
输出的每条结果都带 confidence 信心值和 evidence 判断依据——不是给你一个答案就完事,而是告诉你”我为什么这么判断”。
五、从命令行到 Web 平台:让非技术人员也能用
光有模型能力不够。使用者不会用命令行,他们需要的是——
上传 PDF → 等几分钟 → 看结果表 → 点击修改 → 下载 CSV。
所以我搭了一个完整的 Web 平台,部署在 lot.zaokit.com:
- 拖拽上传:支持多 PDF 批量上传
- 实时进度:SSE 推送分析进度,不用刷新页面
- 在线编辑:发现 AI 判错了,直接在页面上改,自动保存到 SQLite
- 修改追踪:每次人工修改都记录”从什么值改成什么值”,方便溯源
- 权限控制:Cloudflare Access 邮箱验证,只有授权用户能访问
这套东西跑起来以后,原来一张图半小时的活,现在上传后等两三分钟自动出结果。 人只需要看标红的”需要复核”行,确认一下就行。
六、2026 年,AI 正在改变整个建筑行业
我做的只是建筑行业一个很小的切面。往大了看,AI 对这个行业的改造已经全面铺开——

| 领域 | AI 在做什么 |
|---|---|
| 生成式设计 | 输入约束条件,AI 自动生成上千种设计方案 |
| 碰撞检测 | 管线冲突不再等人发现,AI 提前预警并建议修正 |
| 施工安全 | 摄像头 + CV,实时检测工人是否违规操作 |
| 数字孪生 | IoT 传感器 + BIM 模型,设备故障提前预警 |
| 合规审查 | 图纸自动对照规范条文,一键出审查报告 |
| 进度预测 | 历史数据 + AI,预测延期风险和预算超支 |
Autodesk 已经把 AI 深度集成进 Construction Cloud。广联达的 AecGPT 开始在国内落地。2026 年,AI 不再是建筑行业的”实验性技术”,而是正在成为核心生产力。
写在最后
这个项目让我感触最深的一点是:AI 落地不是”模型足够聪明”就行,而是要把模型能力嵌入到具体的业务流程里。
纯靠模型看图,准确率 80%,商业上不可用。加上文字提取、规则校验、二次复核、人工兜底,整体准确率才到了可交付的水平。
建筑行业有大量这样的”苦差事”——规则明确、量大枯燥、容错率低。这恰好是 AI 最适合的战场:不是替代人的判断力,而是替代人的重复劳动,把人从”看花眼”里解放出来。
AI 改变建筑行业的方式,不是画一栋更漂亮的楼——而是把那些没人愿意干但必须有人干的活,做得又快又准。