Qwen 2.5 更新:推理速度猛增 4.3 倍,或将终结 RAG 时代
国产大语言模型 Qwen 2.5 系列近期更新了 Qwen 2.5-Turbo,在支持超长上下文和性价比方面取得了重大进展。
超长上下文支持
Qwen 2.5-Turbo 扩展了上下文长度,从之前的 128k 扩展到 1M,相当于 100 万个英文单词或 150 万个汉字。这个长度相当于 10 部长篇小说、150 小时语音记录或 30000 行代码。
更快的推理速度
基于稀疏注意力机制,Qwen 2.5-Turbo 处理百万上下文时的首字返回时间从 4.9 分钟降低到了 68 秒,实现了 4.3 倍的加速。
高性价比
Qwen 2.5-Turbo 的定价为 0.3 元/1M tokens。这意味着,在相同成本下,Qwen 2.5-Turbo 可以处理的 token 数量是 GPT-4o-mini 的 3.6 倍。
应用场景
Qwen 2.5-Turbo 的超长上下文支持和快速推理速度使其在以下应用场景中具有优势:
* 快速理解长篇文档:Qwen 2.5-Turbo 可以一口气读完 3 本长篇小说(69 万个 token)并总结主要内容。
* 掌握代码库信息:Qwen 2.5-Turbo 可以迅速掌握一个包含 13.3 万个 token 的代码库,并准确输出各种细节。
* 论文分类和摘要:Qwen 2.5-Turbo 可以一口气读完 7 篇论文,并完成论文分类和摘要。
* 长文本任务:Qwen 2.5-Turbo 在 RULER、LV-Eval 和 LongBench-Chat 等基准测试中,在多个维度上超越了 GPT-4o-mini。
对现有模型的影响
Qwen 2.5-Turbo 的超长上下文支持和高性价比或将终结 RAG(Retrieve-Align-Generate)时代的到来。
RAG 是一种基于检索的语言模型,需要先从大规模语料库中检索相关信息,再将检索到的信息与上下文进行对齐,最后生成答案。
Qwen 2.5-Turbo 无需检索,可以直接处理百万级别的上下文,这使得 RAG 模型在长文本任务中的优势不再明显。
开源计划
阿里云通义开源负责人林俊旸表示,目前没有 Qwen 2.5-Turbo 的开源计划,但正在努力中。
原创文章,作者:讯知在线,如若转载,请注明出处:http://mip.xzxci.cn/2024/11/20/19846.shtml