基于知识图谱的问答在美团智能交互场景中的应用和演进

主要来源: 阅读训练：1 2021-03-23 07:56:37

[提要]文章作者：潘路美团点评资深算法专家编辑整理：凌铭内容来源：2019知识图谱前沿技术论坛出品社区：DataFunTalk注：欢迎转载，转载请在留言区内留言。...

文章标题小说作者：潘路饿了么评析专理百度算法技术专家添加图片归置：凌铭项目来历：2019小语义网前端技巧公众号出产社区网站：DataFunTalk注：邀请转发，转发请在信息咨询住宅区信息咨询。

导读：目前为止 IT 产业经历了六次凯时最新首页登录，分别为：大型机时代，小型机时代，个人电脑时代，桌面互联网时代，移动互联网时代和 AIOT 时代。在这些时代背后可以发现是人机交互方式的变化：从鼠键交互，到触控交互，再到语音智能交互，可以看到人机交互的方式在向更自然更直接化的方式演进。今天会和大家分享基于知识图谱的问答在美团智能交互场景中的应用和演进。

现如今的介绍一下会需紧紧围绕今天三个展平：

智能交互背景介绍
受限场景问答应用和演进
复杂场景问答应用和演进

——智能交互背景介绍——

1. 智能交互的划分

智力交互式的确定常见上是结合社会市场需求切分：

检索式交互—信息获取，比较经典的方法 FAQ：QA 匹配，QQ 匹配；
任务式交互—执行任务，比如订机票 ( 酒店 ) 的特定任务；
闲聊式交互—娱乐与休闲，基于深度学习的端到端的学习系统。

2. 美团生活服务交互

美团网是做的的生活工作的厂家，遍及了吃饭、玩耍、酒店住宿和草原凯时最新首页登录等各级的的生活方向，上述那样许多种方向更适用于用什么智力通讯的行为，包括智力通讯的行为是怎么样在情况中落地式的，后文中都是会参与描述。

3. 美团 APP 中的交互

后面先举个事件，前提是在商场超市不一样下自己进行分析食用渠道出现，贴近4成的用户账户在进口货品信息 A 申请加入化妆品购物车功能性后，会去了解其他的店铺与进口货品信息 A 类似的的进口货品信息。这样犯罪行为很强烈是两个进口货品信息十分的述求，而该述求实现近年的功能性交流互动行为模式先要实现。

再举个案例，在叫出租车不一样下咱们叫出租车可以在 app 中去12-14次窗口通讯，app 通讯比效繁杂琐碎。而语气自动化通讯只可以简单易行的一下话就能进行，譬如"来帮我叫个专车，这几江山午几点从天安门到郑州西站"。

之上相互的3d场景对相关的知识有核心的依靠，可以操作相关的知识协助消费者完整选定：

餐饮：热门商家，人均价格，推荐菜，适合人群，食材等；
商超：附近商家，距离，促销商品，配送费，价格等；
电影：上映日期，导演，影片类型，影院，票价等；
酒店：房型，评价，星级，空调，早餐，价格等。

伴随互交对只是点有首要依赖感，相当于公司引用了源于只是点图谱的答问 KBQA。

4. KBQA 特点

由上表不错可以看到，KBQA 比于沒有科技的亮点：

数据准备：KBQA 处于劣势，需要建构知识图谱，专业领域人参与并且较为复杂。
数据管理：KBQA 为知识结构易于管理和维护。
意图判断：KBQA 需要判断意图，定位到意图下面的子图，从而对子图进行检索，这样精度比较高。
问题类型：可支持多跳，带有约束的计算和推理，较为灵活。
结果精准性：由于知识结构，回答的精确性会比较高。
轮次：对于多轮问答能够很好完成。

——受限场景问答——

1. 什么是受限场景

异常场境有一些几个功能：

交互意图和需求在确定性范围
知识与资源处于封闭、收敛空间

举列到店选餐，选餐的用意的选择，另外资源共享也是异常的，客户和食材全是的选择的；也，机票网上订房落杆地點、舱位、价、人群也是异常的；打的用意是了解的，而地點还可以不同的选择不异常的，只是可确认低频的市标树立异常的地點。上面，会介召一点限制画面具体的推动计划。

2. 传统基于知识图谱的问答

关键在于说明的是傳統应用场景小数据仓库的各个平台答问，此种各个平台答问主要对半分2大派别：

Semantic Parsing-based KB-QA把用户的问题转换为机器的查询语句，直接查询知识图谱获取答案。
Information Retrieval-based KB-QA使用端到端的方式解决问题。先抽取用户问题中核心信息，然后根据核心信息定位到图谱中确定子图 ( 子集 )，最后生成答案。生成答案有两种方式：① 子图的候选答案形成三元组逆向推导生成自然语言的问题和用户原始问题做匹配② 子图候选答案和周围的信息做 embedding 与原始问题 embedding 做匹配。

3. Semantic Parsing

用《Semantic Parsing on Freebase from Question-Answer Pairs, EMNLP 2013》这篇整形论文推荐 Semantic Parsing 的几块部骤：

把问句的词语或者单词与知识库的实体或者关系进行映射，映射构成叶子节点。
直接对叶子节点使用链接、求交和聚合三种操作自下向上构建语法树。
这三种操作中会存在多颗语法树，需要构建一个分类器把正确的语法树区分出来。最终语法树的根节点则为输出的查询语句。

Semantic Parsing 会现一部分特殊性，须要大规模的那自然把你想表达方式出来逻缉把你想表达方式出来式的标志，与此同时才能需求现有的情景和逻缉把你想表达方式出来。而 Information Retrieval 是可以改变 Semantic Parsing 的控制。

4. Information Retrieval

也，经过《Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information, arxiv 2016》结合 Information Retrieval 的些步凑：

问题编码，问题使用双向 lstm 并加入答案的 attention 编码；
答案编码，把所有答案分成四块进行编码，分别为答案本身编码，答案到实体边的关系编码，答案类型编码和答案上下文编码；
匹配，使用问题编码和答案编码进行匹配，最终输出排名最高的作为匹配答案。

5. 效果比较

在 WebQuestion 数据统计集就能够看清楚，Semantic Parsing+DeepLeanring 视觉效果成绩较好 f1 值在45-55相互。Information Retrieval 的端到端在多样化相关问题净化处理上成绩出了什么问题。

6. 面向美团场景

面对xx外卖团购的3d场景水平是怎样的选择呢？第一步xx外卖团购前沿技术更多，然而任何前沿技术当中的关连并不是太强，二3d模型的锻炼子范本也更少，可能能快速的控制前沿技术当中转入。Semantic Parsing 需要非常多的的天然计算机语言标出来子范本，而 Information Retrieval 的可回答性在目前为止工業界有时差些。大家制作方法将这三者科技工艺派系益处构建起来了，可以根据 Information Retrieval 精确性位置定位到不足环境的子图里，Semantic Parsing 生产可释疑性的查证网语句。这么科技工艺方法步骤为第一做小平面鉴别和连接，一方面来来确定子图，以来做相关鉴别，第三 SparQL 查证网输出的没想到。那么的益处为可可以根据守则和无辅导冷无法便捷展开知识。

7. 小结

在出现异常场面的解答，其共同点为物资的小知识、可视化交互轮次、小知识外加和效果也是现有的；它应该进行框架人物人物属性解答、带管理的物资的查讯、情况人物人物属性值算出和物资的讯息相比。

——复杂场景问答——

1. 复杂场景定义

在美团打车，绝足绝大部分数多数皆是麻烦场地的各个平台问答。与简单的场地相信，其互交幼儿小班教案与意愿从认定的个人位置到模糊不清的个人位置，資源从开放政策式的用量到开放政策的用量。这些举这三个事件：

"百威啤酒有没有便宜的？"，在商家点餐的受限场景下，百威啤酒指代就是商家所卖的几款百威啤酒；但是在智能音箱的复杂场景，百威啤酒指代的是家旁边的超市所卖的百威啤酒还是旁边酒吧做活动的百威啤酒呢？

"下午四点钟的复联四还有没有 IMAX 票了？"，假设已经识别复联四为一个电影，下午四点的时间如何与电影关联起来，另外 IMAX 票为影厅的一个属性如何与电影关联起来呢？

"第一个销量多少？"，很明显用户在多轮问题所问的，那么第一个指代的是什么呢？

2. 方案概述

上面这几个例，各位也可以概括成六大毛病：实体化爆出、非对接查讯和整合后文。

3. 知识建设面临的挑战

.我先了解实物线闪爆的疑问。民俗的开发域基本常识图谱是选择实物线最上层的的观念接点 ( 冷密集构成物理防御位置 ) 去建没的。如说：宫保鸡丁、广州酒、复联四，其如果不是买家卖的餐品，只是1个冷密集构成的的观念。但有美团打车情境下，会面临了击败，如说：广州酒原浆 5L 桶装 ( xxx百货商店，方形码:yy… )，广州酒10度 500ml ( xxx百货商店，方形码:yy… ) 等某些均是实其实在买家卖的餐品。某些实物线要怎样与消费者自然资源关联性起床，但是把某些实物线聚合起床？

4. 三层概念节点

咱们提起四层定义构件：类产品/标品、同构非标准件品和异构纯定义

产品/标品

能其别多种淘宝宝贝品种的附攻击力喻为标品种说法，列如方形码可对淘宝宝贝做清晰的区分开，除此认知能力还有名稱、年纪尺寸和年纪等附攻击力，此类附攻击力相一致就喻为累似淘宝宝贝。

同构非标品

其定意为同本体下，标准个别比较特殊性特点同。都没有很明确的特点做淘宝淘宝商品门类的辨别，只不过比较特殊性的特点还就能够做辨别，词有广州啤、车厘子 JJ 级等，孩子的项目同，高等级同、品类同。一些市场概念还就能够做淘宝淘宝商品数据检索词。

异构纯概念

异构纯理论依据破坏了基座的理论依据，是由人类进化强制组识勾勒，出现的的了解。像是生活销费的大学生销费群体、生活销费的商业步行街，号称异构纯理论依据。其会给予情境化选择题供应如此大的辅助。

5. 概念存储

你们照搬了 Freebase CVT 的文件存储，将构架网络端点可看做网络端点，真卖卖的货品为构架网络端点的 CVT 子网络端点，把 CVT 相同的特点诸如名号和加盟品牌等吸取来看做构架的特点。

6. 概念引入效果

① 实体链接的优化

举个好例子，各种甜品在是无性质的状态下，想必要各种甜品会友链转换转换到众多信息 ( 各种甜类别、各种甜品店和百货卖的速溶各种甜品等 )；当性质引用后，会友链转换转换到性质结点上，再对于性质做友链转换转换和消歧，那就能随时友链转换转换到老板、类别和商品销售上，还若访客是无通用召回信息的现实述求，不可能开启下一款实体型层去查询系统。

② 优化信息查询和对比类查询能力

有效市场理论用户账户查询个人网站"宁波纯生洋酒和百威纯生洋酒哪一个低"在未名词解释的情况报告下，要查询个人网站成千上千个宝贝去做较为，是名词解释的传入，只可以在名词解释层开展较为。

③ 缺失属性补全

朋友在金5000万 ( 中关村店 )，问番茄炒蛋口感怎么样才能？假说专业数据挖掘不长期存在番茄炒蛋在这儿店的口感，该怎么样才能讲解呢？

有五种模式：第1，若都存在番茄炒蛋说法且这类说法有药味攻击力数据，可在使用这类说法的药味攻击力数据放置该方面；第二种，更佳的的方法：寻得用户的故障最同类的子连接点，即金百来万 ( 中关村店 ) 的子连接点，挖掘其理解了番茄炒蛋和其味儿附属性，可拿该味儿去放置。

7. 非连通查询

在非相通查询网中会存有攻击速度引入 ( 引入约束条件 ) 的的问题，举一些栗子：

"我想吃簋街的小龙虾"，簋街为一个商圈其不能与小龙虾直接相连接；
"帮我找个辣的餐厅"，辣为菜的口味不能与餐厅直接相连接；
"帮我看一下下午4点复联四还有没有票"，复联四与排片时间也不能直接关联。

① 属性传递

路径分析游动有三种习惯：

一是实体关系路径游走，例如"簋街 -> 胡大饭店簋街总店 -> 麻辣小龙虾 -> 小龙虾"。
二是本体的路径发现，游走方式为"簋街 -> 地址(本体)-> 订单(本体)-> 菜品(本体)-> 小龙虾"。

② 在线路径查询

应用于上边相对路径名看到时候，营造到现阶段的工作流程中，当我们輸入"带我找位辣的餐馆"，第一做相对路径名的看到，"餐馆->类行->眉州东坡->举荐菜->毛血旺->口感滋味->辣"，再进行 SparQL 查询系统语句，受到最终结果就能提状况我们的状况。

③ 离线关系发现

既然如此眉州东坡几乎数网友推荐菜的审美是辣的，这么可不会创建眉州东坡审美的边为辣。同一察觉簋街多跳随后独具的特色菜为小罗氏虾，这么也可不会创建簋街的独具的特色菜为小罗氏虾.....由此屏蔽屏蔽，在脱机把边填补非常组成，这么再线路劲搜索的压差要小太多。

8. 融合上下文

我们都账户在核心卖点餐的真实的情境中，第一能够世界任何型沟通互动给到我们都账户的服务器商下拉列表，我们都账户可的选择服务器商甚至应对的菜谱，以后从够物车里挑选游戏内容，后来接单。在这个情境为心态变迁的多轮沟通互动世界任何。我们都想在该情境中凝固提问，这样的话我们都账户在服务器商心态下问该服务器商的推荐英文菜谱，在菜谱心态问菜谱风味，在够物车心态问優惠券，也会在接单后问我的订单的心态。这样的话会将世界任何型创新扩散理论沟通互动软件和提问软件凝固起床。

你们提交了2个方面改变：