Archer®证实在法规变更管理方面,专用AI全面超越通用大模型:验证准确率95%、提速80倍、降本92%
对于在合规领域部署AI的企业而言,一个错误日期就意味着错过合规截止期限。更危险的故障是模型返回高置信度的错误答案,该答案会悄无声息地流入合规日历,直到时间窗口已过才被发现。Archer® 今日发布的测试结果表明,在处理监管业务时,专用型AI完胜通用大模型(LLM),且优势不可同日而语。在这项强强对决的基准测试中,双方围绕一项核心合规任务展开对决:判定六个司法管辖区内监管文件的发布日期、生效日期以及意见征集截止日期。测试的一方是Archer依托专有数据集打造的垂直领域专用AI,另一方则是某款领先的通用大模型。
通用模型是一项真正的突破,此次测试绝非对其质量的全面否定。Archer旨在解答的问题更为具体且务实:即如何在大规模应用中,确保特定的高风险判定既可靠、快速,又具成本效益。植根于专家验证知识库的垂直、行业聚焦型业务流程,能够在这三个维度上同时胜出。
准确率:错误答案减少90%
在同一批55份文件的测试中,该通用大模型的错误率高达56%。更糟糕的是,模型的高置信度反而起到了反作用。在那些被它评为高置信度的答案中,依然有35%是错误的。相比之下,使用Archer Evolv,超过95%的判定都能直接通过系统验证,其余少数则会在投入使用前路由分发给专家进行人工审核。最终,没有一个错误的日期进入生产系统,真正做到了“无验证,不交付”。
|
样本文档的处理结果 |
通用大型语言模型(LLM)流程 |
Archer Evolv |
|
正确 |
44% |
95%已验证,5%经专家审核 |
|
错误,但被判定为有效 |
25% |
0% |
|
失败或超时 |
31% |
0% |
模型自身的置信度绝不能等同于合规控制。在通用大模型标注为高置信度的答案中,仍有35%是错误的。这种准确率上的鸿沟,正是负责任地部署智能体AI的先决条件,因为自动化运行的智能体,其可靠性完全取决于其底层判定的准确度。唯有经过验证、源头可追溯且由专家监管的答案,才能确保AI智能体在整个企业级架构中得到安全部署。这正是AI治理的核心所在,也是Archer致力于提供的关键架构层。
Archer首席产品与技术官Kayvan Alikhani表示:“在合规领域,快捷、廉价却错误的答案毫无价值,而无法追溯源头的答案则是一场灾难。Archer的专用型AI实现了超95%判定的实时验证。这正是让企业能够在不失去结果控制权的情况下,扩展智能体AI的基础。”
速度:实时验证答案
根据测试要求,通用大模型的处理流程在5秒的超时限制内,平均每条响应需耗时约4秒。而Archer Evolv在处理重复查询时,仅需约五百分之一秒即可交付经过验证的日期,速度提升了约80倍。对于需要紧跟监管日程步伐的AI智能体和合规分析师而言,这正是并驾齐驱与沦为效率瓶颈之间的天壤之别。
成本:一个持久且经过验证的知识库,而非按需推理
通用模型的处理流程在面对每一次请求时都要重新计算答案,对之前找到的结果毫无记忆。而Archer Evolv则在数据摄入时仅计算一次,并将验证后的结果写入可扩展且由专家监管的知识库中进行持久化存储,从而能以极低的成本和延迟满足未来的每一次查询。当法规发生修订时,Evolv会主动捕捉这一变更,重新进行验证并对更新后的答案进行版本化管理。因此,系统交付的任何内容都绝不存在滞后。以一个包含500份文件的语料库为例,若每份文件每月被查询12次,通用流程需要进行6,000次计算判定,而Evolv仅需500次。Archer Evolv由此避免了约92%的推理调用,这种结构性成本优势还会随着业务量的增长而进一步扩大。
上下文语境让这一切成为可能
Archer Evolv的优势正是源于对上下文语境的深度把握:在任何AI运行之前,它都会先评估该企业的司法管辖区、产品线、业务单元、风险特征以及监管主题,从而确保每一项合规判定都紧密植根于该企业的切身利益。这正是“一个普通答案”与“一个具备可抗辩性的确定答案”之间的本质区别。企业部署的智能体越多,这块基石的价值就越发彰显——因为每一个智能体都直接继承了这套经过验证、源头可追溯的底层逻辑,而无需每次都白手起家地去重新推演整个世界。
Archer首席执行官Bill Diaz表示:“未来十年能够胜出的SaaS企业,会将特定领域的专用AI与通用大模型无法复制的、垂直行业所独有的背景信息相结合。这才是企业的护城河,而且它会产生复利效应。这次测试就是最好的证明。”
关于Archer
Archer助力全球领先企业管理风险、合规及监管变化。目前已有超过1,300家组织采用Archer平台,其中包括半数《财富》500强企业以及全球前50大银行中的37家。全球每六分钟就会出台一项新的监管变化,而智能体AI的发展速度已超过了大多数团队管理这些变化的能力。Archer专为GRC领域打造的AI基于最深入的监管数据和专业领域知识,因此每项结果都能追溯至其来源,每项决策都经得起推敲。Archer提供涵盖GRC全领域的解决方案,包括监管变更管理、AI风险管理、监管情报、第三方风险以及IT和安全风险。
- 高能环境董事长李卫国赴中鑫宏伟视察调研
- 节卡机器人股份有限公司与上海交通大学郑州研究院签署战略合作协议
- 欢太数科:以数字科技构建开放生态,助力转型与生活升级
- “三管齐下”筑防线——农发行衡阳市分行护航金融网络安全
- 临商银行商城小微支行组织开展金融知识进校园集中宣传活动
- 平安养老险安徽分公司以案说险:了解保险责任及条款
- Lotus选择AWS作为其首选云服务提供商,以推进互联和自动驾驶汽车的发展
- 行业观察 | 燕矶长江大桥建设稳步推进,泓基集团阶段性竣工
- TFOS理事Fiona:让世界看到中国干眼领域的发展成就
- 矿用阻燃光缆mgts33:欧孚光电厂家的安全守护者3
- 文化遗产牛种!“吃甘蔗的水牛”全面升级
- 时隔六年 JJ林俊杰深圳再开唱 近十万乐迷齐聚“JJ20”
- 卓翼智能在杭州消防救援实战演练中打破传统界限
- IQM 将量子计算机集成至 Oak Ridge National Laboratory 高性能计算系统
- Guidewire发布的Kufri推动HazardHub的国际扩张,使另外19个国家的保险公司能够在几秒钟内评估财产风险
- 四川石棉:AI助力创新创业,打造“数字石棉”新名片
- 临商银行北城支行营业部持续加强ATM机安全管理
- 冰箱“保质期”只有10年 美菱以旧换新激活力
- 智启未来 链通全球 中信国际电讯集团亮相2025世界人工智能大会
- CertiK发布Skynet预测市场报告:交易额激增400%,繁荣背后的安全与监管风险
- Founder Group Limited Secures US$5 Million EPC Contract for a 5.5MW Solar Plant under Malaysia'
- 深耕答卷,万里商机 八省采购对接全国行——内蒙古
- 3.8国际妇女节 Lavazza女咖啡师们的意大利发现之旅
- Egon Zehnder and IMD Join Forces to Boost Board Performance and Leadership Growth
- 在烟火人间,修一颗云水禅心 ——读小雪老师所著《那一场风花雪月的故事》有感
- 上海临港耀中外籍人员子女学校永久校舍工程正式开工!
- 2025中俄国际时尚周新闻发布会暨俄罗斯RUSSIAN FASHION DISPLAY在大连发布
- 弥合AI与业务的鸿沟——魔数智擎×某银行构建可解释、业务化的金融智能平台实践
- 数智化驱动口腔医疗范式革新,泰康口腔以全生命周期管理构建差异化竞争力
- 从神秘到治愈:一场跨越千年的胜利





