CogAgent：开源的VLM基础GUI智能代理

CogAgent 是由清华大学数据挖掘研究组（THUDM）与智谱AI联合开发的开源视觉语言模型（Visual Language Model, VLM），专门用于图形用户界面（GUI）的理解和导航。该项目旨在通过多模态大模型实现跨平台的GUI自动化操作，为开发者和研究人员提供一个强大的工具[2]。

参数规模：CogAgent-18B 拥有110亿的视觉参数和70亿的语言参数，总计180亿参数。
图像分辨率支持：支持高达1120×1120分辨率的图像理解，确保了高精度的GUI组件识别和交互。
核心能力：
- 视觉问答：能够回答关于GUI界面的问题。
- 视觉定位：可以精确定位GUI中的特定元素。
- GUI Agent：能够执行按钮点击、文本输入和菜单导航等任务[5]。

CogAgent-9B-20241220：相较于之前的版本，新版本在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升[13]。

通过以上介绍，可以看出CogAgent不仅是一个强大的视觉语言模型，还为GUI自动化操作提供了创新的解决方案。其开源特性也为广大开发者和研究人员提供了宝贵的研究和应用机会。