让机器如人类般理解并应答,一直是人工智能迈向大规模应用的一大挑战,特别是在自然语言处理领域,其发展进程相对图像与语音处理更为缓慢。这主要是因为自然语言的高度抽象性及其丰富的语义信息,使得精确理解与回应成为一大难题。
SQuAD 2.0(Stanford Question Answering Dataset 2.0),作为认知智能领域公认的机器阅读理解顶级测试平台,通过整合维基百科的庞大数据资源,构建了一个包含逾十万问题的机器阅读理解数据集。此由斯坦福大学发起的挑战赛,吸引了全球AI研究团队竞相参与,以期在“打榜”中崭露头角。近期,中国蚂蚁小宝技术团队在此项挑战中拔得头筹,并刷新了纪录,其模型表现甚至超越了人类水平。
支小宝的资深技术专家陆鑫指出,此次成绩的提升不仅标志着技术能在蚂蚁的业务场景中发挥赋能作用,通过知识挖掘与生成,显著提升生产效率,部分替代人类在业务中的职能。
然而,尽管模型表现超越人类,这并不意味着机器能在所有专业、开放领域中完全取代人工。在金融等特定领域,要实现全面开放的理财问答服务,仍需补充大量技术能力以辅助自然语言理解,完成全能问答机器人的部署。
选择SQuAD 2.0作为技术攻坚的战场,支小宝算法负责人董扬解释了三方面原因:首先,该挑战的问题与支小宝业务高度相关;其次,参赛队伍的数量与质量体现了行业顶尖技术实力;最后,斯坦福大学的权威性与榜单的公信力是重要考量。实际上,除SQuAD 2.0外,国内外相关榜单及NLP领域的综合评测、比赛均被纳入参考范围。
陆鑫以“用火炉烧水的余温顺便烤个白薯”为喻,形容这些比赛是团队在业务之余的余力所为,却能在服务业务的同时,对模型进行相应优化。
技术层面,“烤白薯的余温”始于2020年下半年。在此期间,支小宝技术团队在适配业务完成大量数据训练的同时,也致力于解决机器阅读的几大难题。具体策略包括:在text span预测中,对多个start-end pair进行排序是关键,需引入多种rank逻辑与特征;通过粗排与精排策略优化过长文档的信息冗余及过短文档的不足;针对数据集噪声干扰,采用增强鲁棒性的训练方法,如文本对抗训练;鉴于比赛数据量较小,团队尝试了多种语料增广方法;此外,还引入了pretrained embedding作为模型基础,并利用automl调整模型结构与超参数搜索。
金融领域对合规与安全的高要求为机器阅读理解技术带来了独特挑战。支小宝技术团队在训练过程中,选用专业的财经资料作为输入,并在内容上线前经过合规审核团队的严格把关,确保用户获取的信息合规、安全且时效。
支小宝是一个需求模糊、供给有限的产品。早期知识库有限且依赖专家撰写,但金融行业的高专业性与合规要求使得专家撰写周期较长,每月仅能产出百余条内容。庞大的用户基数则导致早期支小宝在理财、保险等问题上难以提供有效回答。为此,技术团队借助机器阅读理解技术,通过大量文章与用户实时性问题训练模型以生成答案并提交专家审核。此举不仅大幅提升了效率,也让用户感受到支小宝的智能化进步。
与同类型技术相比,支小宝在人机协同方面也有显著创新。通过算法挖掘用户与理财师的“人人对话”场景,自动生成“人机对话”剧本,将人人对话经验应用于人机场景之中,扩大了应用范围。
目前,支小宝技术团队规模约30人,其中半数从事算法研究。除NLP、对话理解等核心方向外,团队还参与并发表了多篇论文。团队成员学历背景优越,博士比例达30%,985硕士占比超过95%。正是这样一支热爱学习与技术创新的团队取得了用户喜爱与权威榜单认可的成绩。
展望未来支小宝将与技术深度融合并开放迎接更多挑战。目前机器阅读理解技术在支小宝业务场景中已得到广泛应用并取得了显著成果如提升服务半径、个性化推荐等。同时该技术也应用于理财师领域大幅提升了工作效率。未来支小宝将继续发展语义推理、数值推理等能力并结合多轮对话场景与跨文档答案获取等技术挑战以应对更多更复杂的业务场景与规模化挑战。