Qwen2.5-Turbo:阿里推出的AI大语言模型,支持 100 万 tokens 上下文,处理时间缩短至 68 秒

AI工具3周前发布 快创云
19 0

Qwen2.5-Turbo是什么?

Qwen2.5-Turbo是阿里巴巴推出的最新长上下文语言模型,支持高达 100万 tokens 的上下文处理,相当于 100 万英文单词或 150 万中文字符,性能优于 GPT-4。通过稀疏注意力机制,推理速度提升至 68 秒,处理成本为每 100万 tokens ¥0.3,兼具短文本任务的高效性。其在多项评测中表现卓越(RULER 93.1 分),适用于文本理解、代码处理等多场景,兼具高效性和低成本优势。

Qwen2.5-Turbo:阿里推出的AI大语言模型,支持 100 万 tokens 上下文,处理时间缩短至 68 秒
Qwen2.5-Turbo:阿里推出的AI大语言模型,支持 100 万 tokens 上下文,处理时间缩短至 68 秒

Qwen2.5-Turbo的主要特性

  • 超长上下文处理能力:支持 100万 tokens 的上下文长度(约 100 万英文单词或 150 万中文字符)。可处理 10 部小说、150 小时语音转录或 30,000 行代码。在 RULER 长文本评测中得分 93.1,优于 GPT-4 的 91.6
  • 推理速度显著提升:稀疏注意力机制将 1M-token 首个 token 的生成时间从 4.9 分钟缩短至 68 秒,实现 4.3 倍加速
  • 更低的处理成本:每 1M tokens 的处理成本仅为 ¥0.3,比 GPT-4o-mini 高效 3.6 倍

Qwen2.5-Turbo的性能评测

  • 长文本任务:在 RULER 评测中,Qwen2.5-Turbo 在长文本中定位关键信息、回答复杂问题方面得分 93.1,超越 GPT-4 的 91.6 和 GLM4-9B 的 89.9。此外,它在 LV-Eval 中展现出强大的多证据片段理解能力,有效避免误判,适应复杂任务。
  • 短文本任务:Qwen2.5-Turbo 不仅支持超长上下文,还保留了短文本任务的高性能。在短文本场景中,其表现与 GPT-4o-mini 和 Qwen2.5-14B-Instruct 不相上下,实现了长短文本处理的平衡。
  • 推理效率:通过引入稀疏注意力机制,Qwen2.5-Turbo 在处理超长文本时显著加速,1M-token 输入的首个 token 推理时间从 4.9 分钟缩短至 68 秒,硬件环境下实现 3.2x 至 4.3x 加速,显著提高了推理效率。
  • 准确性:在 1M-token Passkey Retrieval 任务中,Qwen2.5-Turbo 展现了卓越的精确性,达成 100% 准确率,充分体现了其在处理超长上下文中提取关键信息的强大能力。

如何使用Qwen2.5-Turbo?

  • 模型主页:https://qwen2.org/qwen2-5-turbo/
  • 在线体验:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
  • GitHub地址:https://github.com/QwenLM/Qwen
  • API服务:https://help.aliyun.com/zh/model-studio/getting-started/what-is-model-studio
© 版权声明

相关文章