GLM-4.6V发布即开源，国产最强多模态Agent底座模型

大家好，这里是K姐。
一个帮你追踪最新AI应用的女子！

今天，智谱正式推出全新的视觉推理模型
GLM-4.6V 系列模型，并全面开源！本次发布包含2个版本：

GLM-4.6V：总参数量106B，单次推理激活参数约12B，视觉理解精度达到同参数SOTA，适合云端与高性能场景；
GLM-4.6V-Flash：总参数量9B，更轻量，更快捷，适合本地部署；

GLM-4.6V 首次将 Function Call（工具调用）能力融入视觉模型，让大模型同时拥有了眼睛和双手，支持原生处理复杂的视觉任务，并能够基于视觉理解主动调用工具完成后续操作。比如，GLM-4.6V 可以直接“看懂”结构复杂、包含大量图表和示意图的论文，并重新整理成一篇人人都能看懂的图文并茂的文章；

仅凭一张截图，就能拆解页面结构，复刻出几乎一模一样的前端页面。

实测表现

打开z.ai，在页面左上角选择模型GLM-4.6V。

官网：
https://chat.z.aiGitHub：
https://github.com/zai-org/GLM-VHugging Face：
https://huggingface.co/collections/zai-org/glm-46v

GLM-4.6V 可以调用图像识别、图像处理、图像搜索、购物搜索4种工具。在输入框下方，官方预置了一组典型功能示例，包括万能识搜、图文扫描、文档智读、视频理解、智能比价和数理解题等。
选择任一功能，GLM-4.6V 会自动调用匹配的工具。

case1 万能识搜

提示词：这是哪里，几月适合去旅游？

GLM-4.6V 具备原生的视觉理解能力，直接调用识图工具识别图片中的内容，再搜索相关知识给出回复。

case2 图文扫描

提示词：提取图片中的信息，转为excel表格。

GLM-4.6V 对内容和布局的理解非常准确。

再尝试复杂一点的：

提示词：帮我扫描出来这款猫粮的原料、成分表和其他说明，并分析适合2岁小猫长期吃吗？

GLM-4.6V 也准确的识别出原料组成和产品成分，并且基于这些内容进行分析。

case3 文档智读

上周，中科大潘建伟教授团队在国际顶级期刊PRL（物理评论快报）上发表最新研究成果，在量子物理领域取得突破性进展，终结了爱因斯坦与玻尔世纪之辩。我找到了论文原文，让 GLM-4.6V 帮我们分析分析。

提示词：用通俗易懂的话说明：这篇论文写了什么，为什么说它终结了爱因斯坦和玻尔的世纪之辩，以及这项成果除了学术价值之外，对现实世界和普通人意味着什么。

GLM-4.6V 不仅能理解复杂的图表内容，还能把关键信息重新整理，用图文并茂的方式讲清楚。

case4 视频理解

提示词：这是白日梦想家的经典片段，它具体用到了哪些镜头语言，分镜设计有什么亮点？

GLM-4.6V 给出的解读非常专业，整个视频讲述了什么内容，用了哪些镜头，这些镜头语言表达了什么情绪…比我理解的深刻多了。

case5 数理解题

提示词：解答图中问题。

GLM-4.6V 可以结合视觉信息与外部知识进行组合推理，解题思路非常清晰。

case6 智能比价

提示词：请帮我搜索与图中赵露思耳环类似的平价同款。

GLM-4.6V 直接帮我找到了好几个同款平替，识别挺准确的，而且不同平台都有~

case7 图文内容创作

提示词：搜索一下视觉模型的发展过程，生成一个图文并茂的报告。

case 8 复刻前端网页

提示词：复刻截图中的网页，页面中涉及的所有图片素材必须直接使用真实图片和视频，不要用 placeholder 或占位元素。

视觉理解、结构推理、代码生成一步到位，生产的网页和原图基本一致，连截图中的浮窗结构都识别出来并且还原了！导航栏的各个选项也预留了跳转空间。

一些分享

实测体验下来，GLM-4.6V 不仅能识别画面中的细节，还能把图像和自然语言的含义连接起来，理解画面在表达什么，以及这些信息之间的关系，整个过程相当丝滑。
使用时，建议常开深度思考，模型回复质量会更高。前端复刻时建议关闭工具，其他情况下，根据任务自定义或者保持官方选项中的默认设置即可。这个强大的视觉能力还会融入到智谱的 Coding Plan，每个月最低只需要20元，可以直接使用最新模型能力，日常用非常香。随着这类能力逐步成熟，视觉信息将会深度参与决策、规划与行动本身，而现实世界的画面，都将成为系统可以直接理解和调用的一等信息源。视觉模型能力的提升，不只是给 AI 一双眼睛一双手，而是在为下一代智能体参与现实世界打开通道。未来的机器人不再需要被精确编程去执行某个动作，而是能够理解类似“去拿衣柜里最右侧的红色毛衣”这样的自然指令。