排行榜再掀波澜,零一万物笛卡尔荣登向量数据库榜首
在权威测评榜单中,零一万物最新研发的高性能向量数据库笛卡尔(Descartes)以其卓越表现,成功登顶,成为向量数据库领域的“新王”。此前,该榜单的六个数据集冠军分别由两家厂商占据,而笛卡尔的出色成绩则终结了这一“双雄争霸”的局面。
在权威的ANN-Benchmark榜单中,笛卡尔不仅包揽了六个数据集的第一名,而且在性能上大幅领先。与前SOTA相比,笛卡尔的成绩最高提升了286%。这一显著进步不仅彰显了笛卡尔的卓越性能,也进一步巩固了其在向量数据库领域的领先地位。
那么,笛卡尔究竟是如何在测试中取得如此优异成绩的呢?
笛卡尔参与的ANN-Benchmarks榜单包含了六大测试数据集,这些数据集能够展示不同算法在不同场景下的表现。在全部六个数据集的评测中,笛卡尔均取得了最佳成绩。在对数坐标系中,横坐标代表召回率,纵坐标代表QPS(每秒处理的请求数),而笛卡尔则以其优异的性能表现在右上角脱颖而出。
“吞吐量QPS”是衡量信息检索系统查询处理能力的重要指标。在此基础上,零一万物笛卡尔向量数据库实现了显著的性能提升,部分数据集上的性能提升甚至超过2倍以上。特别是在gist-960-euclidean数据集上,其性能优势更是达到了惊人的286%。
那么,笛卡尔背后究竟采用了哪些先进技术呢?零一万物团队表示,增强向量检索能力主要需要解决两个问题:一是减少考察的候选集,二是降低单个向量计算的复杂度。针对第一个问题,他们采用了全导航图技术,构建全局多层缩略图,实现图上坐标系导航。这一技术不仅保证了精度,还能有效裁剪大量无关向量。同时,他们还自研了自适应邻居选择策略,突破了传统策略的局限,使每个节点都能根据自身及邻居的分布特征动态选取最佳邻居边。这些策略的结合使得<a href="https://www.ecreat.cn/tag/rag” target=”_blank”>RAG向量检索性能提高了15%-30%。针对第二个问题,他们则采用了两级量化方案以降低计算复杂度,并充分利用列式存储和SIMD的并发能力,进一步提升硬件性能。此外,他们还通过索引结构优化和连通性保障等全栈向量技术来全面优化笛卡尔向量数据库的性能。最终,笛卡尔的检索精度超过了99%,而千万级数据库的响应时间也仅为毫秒量级。
作为大模型基础设施的重要组成部分,向量数据库在整个行业都备受关注。无论是大厂还是初创公司都在积极研发相关产品。Google、微软、Meta等传统互联网大厂都已在云服务平台中推出了自己的向量数据库产品。而像Zilliz、Pinecone、Weaviate、Qdrant等初创公司也异军突起并在市场上占据了一席之地。其中Zilliz在笛卡尔出现之前就是ANN-Benchmark榜上的王者而Pinecone更是获得了多轮融资其总金额达到了1.38亿美元。这些公司的成功不仅证明了向量数据库的市场潜力也吸引了大量投资者的关注。
随着大模型发展进入白热化阶段零一万物的加入无疑将为向量数据库领域带来新的竞争和变化。未来这个领域的格局会如何发展?让我们拭目以待!