Azure AI Foundry 门户中的模型排行榜(预览版)

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

使用 Azure AI Foundry 门户中的模型排行榜(预览版),可以简化 Azure AI Foundry 模型目录中的模型选择过程。 由行业标准基准支持的模型排行榜可以帮助你找到自定义 AI 解决方案的最佳模型。 在模型目录的“模型排行榜”部分中,可以 浏览排行榜 以比较可用模型,如下所示:

每当找到喜欢的模型时,都可以将其选中,并放大模型目录中模型 的详细基准测试结果 。 如果对模型感到满意,可以部署模型,在沙盒中试用该模型,或对您的数据进行评估。 排行榜支持跨文本语言模型(大型语言模型(LLM)和小型语言模型(SLM)和嵌入模型进行基准测试。

模型基准通过以下类别评估 LLM 和 SLM:质量、性能和成本。 此外,我们还使用标准基准评估嵌入模型的质量。 随着更多更合理的不饱和基准的加入以及新模型添加到模型目录,排行榜会定期更新。

语言模型的质量基准

Azure AI 通过使用标准的、全面的基准数据集中的准确性评分来评估 LLM 和 SLM 的质量,这些数据集测量模型在推理、知识、问答、数学和编程等方面的能力。

索引 说明
质量指数 质量索引是在综合标准基准数据集上,通过对适用的准确度分数(exact_match、pass@1、arena_hard)进行平均计算来得出的。

质量指数在零到一的范围内提供。 质量指数值越高越好。 质量索引中包含的数据集包括:

数据集名称 排行榜类别
arena_hard 质量保证
bigbench_hard 推理
gpqa 质量保证
humanevalplus 编写代码
ifeval 推理
算术 数学
mbppplus 编写代码
mmlu_pro 一般知识

查看准确性分数的更多详细信息:

指标 说明
准确性 准确度评分在数据集和模型级别提供。 在数据集级别,评分是对数据集中所有示例计算的准确度指标的平均值。 在所有情况下都使用exact-match的准确性指标,但对于使用pass@1指标的HumanEvalMBPP数据集除外。 完全匹配会根据数据集将模型生成的文本与正确答案进行比较,如果生成的文本与答案完全匹配,则报告 1,否则报告 0。 pass@1 指标用于度量在代码生成任务中通过了一组单元测试的模型解决方案的比例。 在模型级别,准确度评分是每个模型的数据集级准确度的平均值。

准确性分数是在零到一的范围内提供的。 值越大越好。

语言模型的性能基准

性能指标根据每天发送的 24 条跟踪(每条跟踪两个请求,每条跟踪间隔 1 小时)在 14 天内进行汇总计算得出的。 以下默认参数用于向模型终结点发出的每个请求:

参数 价值 适用于
区域 美国东部/美国东部 2 标准部署Azure OpenAI
每分钟令牌数 (TPM) 速率限制 对于非推理模型,为 30k(180 RPM,基于 Azure OpenAI),对于推理模型,为 100k
N/A (标准部署)
对于 Azure OpenAI 模型,用户可以根据部署类型(标准、全局、全局标准等)选择速率限制范围。
对于标准部署,此设置是抽象的。
请求数量 每小时 1 个追踪(每天 24 个追踪),每个追踪包含 2 个请求 标准部署,Azure OpenAI
跟踪/运行数 14 天,每天 24 个追踪,336 次运行 标准部署,Azure OpenAI
提示/上下文长度 中等长度 标准部署,Azure OpenAI
处理的令牌数(中等) 输入与输出令牌的比例为 80:20,即 800 个输入令牌对应 200 个输出令牌。 标准部署,Azure OpenAI
并发请求数 1 个(请求依次逐个发送) 标准部署,Azure OpenAI
数据 合成的(基于静态文本准备的输入提示) 标准部署,Azure OpenAI
区域 美国东部/美国东部 2 标准部署和 Azure OpenAI
部署类型 标准 仅适用于 Azure OpenAI
流媒体 真 实 适用于标准部署和 Azure OpenAI。 对于通过托管计算部署的模型,或者对于不支持流式处理的终结点,TTFT 表示为 P50 的延迟指标。
SKU Standard_NC24ads_A100_v4(24 核、220GB RAM、64GB 存储) 仅适用于托管计算(估算成本和性能指标)

LLM 和 SLM 的性能通过以下指标进行评估:

指标 说明
延迟平均值 通过多个请求计算得出的处理请求所用的平均时间(以秒为单位)。 为了计算此指标,我们将在两周内每小时向终结点发送一个请求,并计算平均值。
延迟 P50 延迟的第 50 百分位值(中值)(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,50% 的请求在“x”秒内完成,“x”是延迟度量。
延迟 P90 延迟的第 90 百分位值(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,90% 的请求在“x”秒内完成,“x”是延迟度量。
延迟 P95 延迟的第 95 百分位值(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,95% 的请求在“x”秒内完成,“x”是延迟度量。
延迟 P99 延迟的第 99 百分位值(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,99% 的请求在“x”秒内完成,“x”是延迟度量。
吞吐量 GTPS 每秒生成的令牌数 (GTPS) 是从请求发送到终结点开始每秒生成的输出令牌数。
吞吐量 TTPS 每秒令牌总数 (TTPS) 是每秒处理的令牌总数,包括来自输入提示和生成的输出令牌。 对于不支持流式处理的模型,响应第一个令牌的时间 (TTFT) 表示 P50 的延迟值(即接收响应所需的时间)
延迟 TTFT 生成首个令牌的总时间 (TTFT) 是启用流式处理时生成从终结点返回的响应中的第一个令牌所花费的时间。
令牌间隔时间 此指标是接收令牌的间隔时间。

Azure AI 还显示延迟和吞吐量的性能指数,如下所示:

索引 说明
延迟指数 生成首个令牌的平均时间。 值越小越好。
吞吐量指标 每秒生成的平均令牌数。 值越大越好。

对于延迟或吞吐量等性能指标,生成首个令牌的时间和每秒生成的令牌数可以更全面地反映模型的典型性能和行为。 我们定期刷新性能指标。

语言模型的成本基准

成本计算是使用托管在 Azure AI 平台上的 LLM 或 SLM 模型终结点的估计成本。 Azure AI 支持显示标准部署和 Azure OpenAI 模型的成本。 由于这些成本可能会更改,因此我们会定期刷新成本计算。

LLM 和 SLM 的成本通过以下指标进行评估:

指标 说明
每个输入令牌的成本 100 万个输入令牌的标准部署成本
每个输出令牌的成本 100 万个输出令牌的标准部署成本
估计成本 每个输入令牌的成本和每个输出令牌的成本的总和,比率为 3:1。

Azure AI 还按如下所示显示成本指数:

索引 说明
成本指数 估计成本。 值越小越好。

嵌入模型的质量基准

嵌入模型的质量索引定义为面向信息检索、文档聚类分析和摘要任务的综合标准基准数据集的平均准确度分数。

查看特定于每个数据集的准确性分数定义的更多详细信息:

指标 说明
准确性 准确性是所处理的预测总数中正确预测的比例。
F1 分数 F1 分数是精准率和召回率的加权平均值,其中最佳值为 1(完美的精准率和召回率),最差值为 0。
平均精准率均值 (MAP) MAP 评估排名和推荐器系统的质量。 它衡量建议项的相关性,以及系统将更相关项目置于顶部的能力。 值的范围可以是 0 到 1,MAP 越高,系统就越能将相关项目放在列表的高位。
归一化折损累计增益 (NDCG) NDCG 评估机器学习算法根据相关性对项进行排序的能力。 它将排名与所有相关项位于列表顶部的理想顺序进行比较(其中 k 是列表长度),同时评估排名质量。 在我们的基准中,k=10(由 ndcg_at_10 指标表示),意味着我们会查看前 10 项。
精准率 精准率衡量模型正确标识特定类的实例的能力。 精度会显示机器学习模型在预测目标类时的正确频率。
斯皮尔曼相关系数 基于余弦相似性的斯皮尔曼相关性的计算方式是,首先计算变量之间的余弦相似性,然后对这些分数进行排名,再使用排名来计算斯皮尔曼相关性。
V 度量值 V 度量值是用于评估群集质量的指标。 V 度量值是同质性和完整性的调和平均值,确保两者之间的平衡,以获得有意义的分数。 可能的分数介于 0 和 1 之间,1 表示完全完整的标记。

分数的计算

个人得分

基准检验结果源自常用于语言模型评估的公共数据集。 在大多数情况下,数据托管在由数据创建者或管护者维护的 GitHub 存储库中。 Azure AI 评估管道从原始源下载数据,从每个示例行中提取提示,生成模型响应,然后计算相关的准确度指标。

提示构造遵循每个数据集的最佳做法,这些做法由介绍数据集和行业标准的论文定义。 在大多数情况下,每个提示都包含几个样本,即完整问题和答案的示例,以便为任务模型打好基础。 评估管道通过从评估中保留的部分数据对问题和答案进行采样来创建样本。