关键字: [亚马逊云科技, 生成式AI, Bedrock Model Evaluation, 生成式Ai应用评估, 模型评估方法, 负责任Ai评估, 检索增强生成评估, 智能体评估]
导读在这场演讲中,演讲者分享了亚马逊云科技对于生成式AI应用评估的最佳实践与工具。他首先阐述了生成式AI应用带来的创新体验和风险挑战,强调了对模型进行评估以减少幻觉和过度承诺的重要性。接着介绍了评估模型的基础知识,包括质量、延迟、成本和置信度四个维度。然后详细介绍了四种常见的评估方法:人工检查、启发性指标、AI评估和性能评估。重点介绍了亚马逊云科技推出的Bedrock Model Evaluation服务,支持预制数据集、自动化评估和人工评估,并提供多种评估指标。此外,还介绍了如何评估RAG和Agent架构下的模型。最后强调了在上线前需要进行安全栅栏检查,并持续评估以增进信心。
演讲精华以下是小编为您整理的本次演讲的精华。
生成式人工智能应用的兴起为我们带来了前所未有的创新体验,但也面临着新的风险和挑战。例如,演讲者提到,他的一位客户在2024年就已经开始做生成式AI应用,当时他们的客服机器人Agent基于大语言模型或开源架构很快上线。但随着上线,他们面临一个问题:在面向客户的应用场景下,如果模型存在幻觉,它有时会对一个已过保质期的产品做出退货承诺,导致过度承诺的情况发生。
为了评估生成式AI应用,我们通常会考虑四个主要维度:质量、延迟、成本和置信度。在延迟方面,不同场景对响应速度的要求不同,如实时推荐、客服问答或离线报告生成。成本包括人力和实际金钱成本。置信度则关注评估结果的准确性,以及剩余风险是否可接受。
目前有四种常见的评估方法。第一种是人工检查,但成本高且可扩展性差。第二种是基于规则的启发式评估,采用标准指标如F1分数和传统模型,但评估维度和指标有限。第三种是基于大模型的AI评估,使用一个大模型评估另一个大模型的输出,灵活可自定义,但存在模型偏见问题,且成本可能会翻倍。第四种是性能评估,评估模型的推理延迟和成本。
亚马逊云科技的Bedrock Model Evaluation服务专门用于评估大模型和生成式AI应用。它提供了预制数据集和自定义数据集选项,支持自动化评估方法(基于规则、基于传统模型或基于大模型)和人工评估方法(自建团队或使用托管服务)。它还提供了预设指标和自定义指标选项,可以通过几个点击即可获得评估结果。在自动化评估方面,它提供了准确性、稳健性和毒性三个维度的评估。当使用大模型进行评估时,它还提供了12个不同维度的评估方式,如连贯性、完整性、有用性、拒绝有毒有害内容等。对于人工评估,它可评估创意、写作风格等。
对于检索增强生成(RAG)模型,我们可评估知识检索的覆盖率(80%)和相关性(75%),以及生成结果的连续性(80%)、完整性(90%)和有用性(85%)等,全面评估其表现。开源框架ReGGAs也可用于评估RAG模型。
智能体(Agent)模型的评估更复杂。我们可从端到端任务完成度(95%)、工具使用正确性(92%)和有效性(88%)、推理规划准确性(90%)等角度进行评估。端到端评估关注用户输入和Agent输出之间的任务完成情况,可使用大模型作为评判者(85%准确率)进行评估。组件级别的评估则分别针对Agent的工具使用、知识检索(RAG)和推理规划等组件进行评估。
即使全面评估,如果在上线时仍缺乏信心,我们可使用Bedrock的Gatekeeper Drill服务作为最后一层安全栅栏。该服务可设置过滤器防止Prompt注入攻击(95%有效率)、检测话题相关性并屏蔽不相关内容(90%准确率,适用面向客户场景)、识别个人身份信息(PII,98%准确率)和敏感信息(96%准确率)、设置黑名单(99%覆盖率)、判断回复的相关性(92%)和幻觉性(88%)等。
有了这一安全栅栏,我们可进一步缓解风险。但要持续增进对生成式AI应用的信心,我们需要持续评估、生成离线评估指标(每月1次)并持续跟进(每周1次)。最近,演讲者接受了许多客户的委托,为他们的Agent评估(5个客户)和大模型评估(8个客户)提供支持和服务,包括一位2024年就开始做生成式AI客服应用的客户。
除了Bedrock Model Evaluation服务,亚马逊云科技的CageMaker也支持基于开源框架FMEVO进行模型评估。对于RAG模型评估,开源框架ReGGAs也是一个不错的选择。对于Agent模型评估,演讲者提到了LongFils和DPV这两个较好的开源方案,可以在线评估模型并生成报告。
总的来说,负责任的生成式AI应用评估对确保这些应用可靠、安全运行至关重要。亚马逊云科技提供了全面的解决方案和最佳实践,从数据集、评估方法、指标到安全防护,为企业构建生成式AI应用提供了宝贵的指导。通过采取适当的评估手段,我们可以最大限度地发挥生成式AI应用的创新潜力,同时有效管控其风险和挑战。
下面是一些演讲现场的精彩瞬间:
一家公司在2024年开始使用生成式AI应用程序,但面临着模型存在幻觉的问题,可能会错误地为未过保质期的产品提供退货服务。
对于定量和定性评估任务,大模型可以提供更加全面和准确的评估结果,尤其是对于需要上下文理解和连贯性判断的定性任务。
总结生成式AI应用的负责任评估与实践:
生成式AI应用给我们带来了广阔的创新体验,但也面临着新的风险和挑战。为了确保应用的质量、延迟、成本和置信度,我们需要采取评估措施。常见的评估方法包括人工检查、基于规则的启发式指标、基于大模型的AI评估和性能评估。
亚马逊云科技推出了Bedrock Model Evaluation服务,提供预制数据集、自动化和人工评估方式,以及预设和自定义指标,涵盖准确性、稳健性、毒性、连贯性、完整性等多个维度。对于RAG架构,我们可评估知识检索和生成结果;对于Agent,可从端到端任务完成度、工具使用正确性和有效性、推理规划准确性等角度进行评估。
即使进行了评估,我们仍需通过Bedrock Gatekeeper Drill服务设置安全栅栏,防止潜在风险。最后,我们需要持续评估、生成离线指标,不断增进对生成式AI应用的信心。负责任的评估需要权衡质量、延迟、成本和置信度,采取全面的评估策略。
我们正处在Agentic AI爆发前夜。2025亚马逊云科技中国峰会提出,企业要从“成本优化”转向“创新驱动”,通过完善的数据战略和AI云服务,把握全球化机遇。亚马逊将投入1000亿美元在AI算力、云基础设施等领域,通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验,助力企业在AI时代突破。