百度发布最新研究成果EICopilot,利用大型语言模型优化知识图谱搜索
近日,百度研究院于2025年1月23日宣布了最新研究成果EICopilot。该成果通过利用大型语言模型(LLM),极大地简化了从数据库中提取信息的流程,为知识图谱的探索提供了高效解决方案。
随着知识图谱在企业领域的广泛应用,涵盖法人、注册资本、股东信息等多维度数据,其高实用性也逐渐显现。然而,复杂的文本查询和手动探索的限制,使得有效提取信息变得困难。为此,百度研究院开发了EICopilot,这是一个基于AI智能体的解决方案,能够简化存储在知识图谱数据库中的企业数据的搜索、探索和摘要过程,从而有效地获取有关企业的宝贵见解。
EICopilot处理的数据集规模庞大,包含数亿节点、数百亿边、数千亿属性以及数百万子图,涵盖了国家注册企业、组织和公司等信息。研究人员通过收集真实企业相关查询,构建种子数据集,并使用Gremlin语言编写搜索脚本,通过系统标注和增强,形成向量数据库,以提高搜索精度。
此外,EICopilot不仅是一个基于LLM的聊天机器人,还采用了创新的数据预处理流程来优化数据库查询。通过利用向量数据库实时生成搜索空间,实现了高效的图谱检索和探索。同时,EICopilot还具备强大的推理能力,采用思维链(CoT)和上下文学习(ICL)等技术,以提供更精准的查询响应。
在性能评估方面,研究人员使用百度内部数据平台的数据构建了包含查询和图数据库查询对的数据集。根据查询的遍历长度,将查询分为简单、中等和复杂三类,并采用语法错误率(SyntaxErrorRate)和执行正确率(ExecutionCorrectness)来评估EICopilot的性能。实证结果表明,EICopilot的性能优于基线方法,尤其在速度和准确性方面表现出色。其中,FullMask版本的EICopilot语法错误率低至10.00%,执行正确率高达82.14%。
这一研究成果的发布,无疑将为企业领域的知识图谱探索和应用带来更多的便利和可能性。