金智维登顶ScreenSpot-Pro榜单,多项指标领先全球
摘要:以小模型实现高精度界面定位,AI执行能力进入新阶段
近日,一项聚焦AI操作能力的全球性基准测试——ScreenSpot-Pro,开始从技术圈走向更广泛的行业视野。
在最新公布的ScreenSpot-Pro榜单中,金智维KV-Ground模型取得全面领先:其中,主流8B模型位列全榜单第一,超越了包括更大参数规模在内的所有模型;4B小模型位列4B参数模型第一,以更小模型实现更高性能。
这一结果也充分反映出,AI 正在从“听得懂指令”向“真正能够操作”迈进了关键一步。

ScreenSpot-Pro 测的是什么?
过去几年,业界常用“多模态能力”来衡量AI进步,例如能否看懂图片、理解页面内容,但在真实企业环境中,这些能力往往只停留在理解层面。真正决定AI能否落地的,是更具体的一环:AI能否在复杂的软件界面中,准确找到并指向应该点击的控件。例如,当财务人员需要在企业ERP系统中“生成上月销售汇总报表”时,AI不仅要理解指令,还必须在满是菜单、工具栏和层层弹窗的完整界面里,精准定位那个可能藏在角落的“导出”按钮。
ScreenSpot-Pro 重点考察的正是这一能力。在真实测试中,它会给模型一句自然语言指令,例如“打开高级筛选”或“导出当前报表”,然后要求模型在一张完整的、高分辨率的真实软件界面截图中,精准定位对应的按钮、菜单或输入框。这种技术能力被称为GUI Grounding,通俗来说,就是AI是否具备“操作电脑”的基础执行力。
ScreenSpot-Pro采用的是整屏、专业软件的高难度场景,覆盖办公、开发、设计、工程分析等23款真实应用,横跨多个行业与操作系统,所有任务均由资深专业人士标注。相比早期许多仅使用简化网页截图的测试,这个基准更接近企业日常工作的真实复杂程度,因此被广泛视为判断智能体能否真正落地的世界级关键标杆。它由多家知名学术机构联合打造,目前已被OmniParser v2、Qwen2.5-VL、UI-TARS等多个主流GUI智能体项目采用,成为行业共识性的重要参考。
金智维KV-Ground在高难度基准上的表现
根据ScreenSpot-Pro官方榜单数据,金智维KV-Ground-8B模型作为一款与智能体策略深度融合的模型,在ScreenSpot-Pro上得分80.5分,位列所有模型第一,成功超越包括更大参数模型在内的多个竞品;KV-Ground-4B模型得分67.0分,摘得4B规模组第一,在全榜单中同样表现突出。
这一成绩已非常接近人类在复杂界面定位任务中的表现水平,标志着金智维KV-Ground不仅能在专业高分辨率GUI场景中精准理解指令,更具备接近人类水准的动手执行能力。
值得关注的是,这一成绩并非单纯依赖更大参数规模。从基础模型到KV-Ground版本的对比实验显示,金智维KV-Ground在界面定位精度上实现了稳定提升,其采用的专项优化方法,能够在不同规模模型上被稳定复现和扩展,而非针对单一榜单的偶然突破。
小模型领先:企业真正需要的落地优势
在企业真实应用场景中,模型参数规模仍是重要指标之一,但并非唯一决定因素。金融机构需要快速处理报表,制造企业要在CAD软件中执行设计调整,研发团队则经常面对MATLAB或SolidWorks等专业工具……这些场景下,部署成本、响应速度和系统兼容性同样关键。在这一背景下,金智维KV-Ground-4B 小模型在复杂专业界面中仍保持较高精度,意味着企业可以在更低算力条件下实现类似能力。
换句话说,原本可能需要较高硬件投入的界面理解与操作能力,如今在更轻量的部署环境中也可以实现,原本中大模型动辄几十万甚至上百万元的服务器,大幅降低到仅需万元左右的设备即可满足,实现更低的时延和更高的性价比。当小模型也能精准完成复杂界面定位时,AI才真正具备大规模进入企业系统的条件,极大降低了企业级智能体的部署门槛。
从“能理解”到“能执行”:智能体落地迈出关键一步
长期以来,企业智能体一直都面临一道难关:大模型可以清晰理解任务,却难以直接完成操作;传统自动化工具可以执行固定流程,却缺乏灵活适应能力。而GUI Grounding能力的突破,填补了这条断层。
这也意味着,系统不需要改变,AI可以主动适应系统,企业因此能够以更低的门槛,将智能体融入日常业务流程,实现从辅助决策到直接执行的跃迁。
此次金智维KV-Ground在ScreenSpot-Pro这一世界级高难度基准上的领先表现,打破了“参数越大越强”的单一认知,展现出一条更注重效率与实用性的优化路径,即在专业GUI操作这一真实难题上,通过针对性优化,小规模模型同样能够达到世界领先水平,这也为行业提供了新的参考思路。
如今,AI的发展正在从拼规模转向拼能力结构,尤其是在企业落地场景中,高效与实用正成为核心竞争力。随着GUI Grounding等底层能力的持续成熟,企业级智能体将进一步走向实用阶段,AI不仅“会想”,更“会做”,真正成为驱动企业生产力的可靠力量。
- 健康品牌【源森活】:匠心打造高品质椰子水,倾力贴近消费者需求
- 由群杰科技承办的“智能风控 新质发展”2025企业智能风控管理创新会在南京圆满举行
- 代做CSC2003 2D character grid
- 2025金球对话·IAEE Predict:400位大咖在“智能涌现的十字路口”对话未来
- JAMA子刊发文(IF9.7):临床研究首次证实VR训练可有效治疗儿童间歇性外斜视
- 用数字化工具守护牛群健康:印尼HOB养牛场的实践
- 木几智能:中国SMT高端装备的全球突破
- 智身科技亮相AWE:自研四足机器人“钢镚L1”斩获艾普兰创新奖
- 聚焦边缘AI,亿达科创具身机器人实现新突破
- 告别水垢烦恼,让水质焕然一新——智能除垢设备引领家居新风尚
- 2024上海环境监测展预登记开启,带您领略行业尖端技术与产品
- 代写COMP9021 Principles of Programming
- 代写CS 6290: High-Performance Computer Architecture
- 无线投屏器哪个好用?皓丽投屏器解锁办公居家投屏新玩法
- ICL晶体植入术更适合哪些人?北京爱尔英智眼科医院周继红为您解答
- 步态识别破局校园安防,银河水滴“水滴守望”系统实现分钟级事件溯源
- 天下泽雨霍山石斛原浆荣登2025长三角名优食品榜
- YOLO Vision 2025 深圳场精彩回顾丨我们聊的不只是 AI 视觉,而是未来如何被更好的「看见」
- 重磅喜讯!微筑科技斩获2024拉姆·查兰管理实践奖
- BOS Cloud帛丝云商助力传统五金企业ERP公有云转型
- 净水行业迈入“下半场” 沁园凭何打开新增长空间?
- “专精特新”企业安徽金晟达:深耕植物补光,助力工业化农业高质量发展
- 银河水滴“水滴神采”全新升级:重新定义公安实战步态识别标准
- 千万别告诉导师!魔方网表:博士生靠它,免费把科研数据管得比付费工具还溜
- 格雷希尔G25F连接器:解决新能源汽车电气端口气密测试难题
- 数字科技塑造未来戏剧丨随幻科技助力上戏打造首部XR话剧作品《嵇康》
- 岭南画派第三代掌门人关权昌:在中西融合中绽放传统艺术生命力
- 领充新能源分布式储能系统助力能源型企业,平稳用电,降低碳排放
- 社科赛斯考研:二十二载岁月铸辉煌,穿越周期的生命力之源
- 砺剑铸魂,赋能强军丨舒华体育用专业服务深化精英培育
推荐
-
丰田章男称未来依然需要内燃机 已经启动电动机新项目
尽管电动车在全球范围内持续崛起,但丰田章男
科技
-
疫情期间 这个品牌实现了疯狂扩张
记得第一次喝瑞幸,还是2017年底去北京出差的
科技
-
如何经营一家好企业,需要具备什么要素特点
我们大多数人刚开始创办一家企业都遇到经营
科技
-
三星官宣5月13日举行新品发布会,超轻薄Galaxy S25 Edge发布
新物网/2025-5-8/三星宣布将于5月13日举行
科技
-
苹果罕见大降价,华为的压力给到了?
1、苹果官网罕见大降价冲上热搜。原因是苹
科技
-
B站更新决策机构名单:共有 29 名掌权管理者,包括陈睿、徐逸、李旎、樊欣等人
1 月 15 日消息,据界面新闻,B站上周发布内部
科技
-
全力打造中国“创业之都”名片,第十届中国创业者大会将在郑州召开
北京创业科创科技中心主办的第十届中国创业
科技
-
创意驱动增长,Adobe护城河够深吗?
Adobe通过其Creative Cloud订阅捆绑包具有
科技
-
智慧驱动 共创未来| 东芝硬盘创新数据存储技术
为期三天的第五届中国(昆明)南亚社会公共安
科技
-
老杨第一次再度抓握住一瓶水,他由此产生了新的憧憬
瘫痪十四年后,老杨第一次再度抓握住一瓶水,他
科技

