知识图谱：技术成熟度飞速跃升，与产业互联结合更加紧密

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

3 3382665wgss 发布于2022-11

知识图谱逐渐成为人工智能应用的强大助力。

曲线表示，知识图谱的发展还需要 5 - 10 年时间才能到达成熟的阶段，知识图谱依然有很大的发展空间。

一、重要的技术发展知识图谱构建主要涉及到两种方法：一种是基于语言规则的方法，另一种是基于统计分析的机器学习方法。自动构建的过程中，如果数据是结构化的 ( 例如图表数据 )，已知属性名称、属性间的层次结构等，构建知识图谱相对较为容易。
1. 知识抽取2020 年以来，更多知识抽取的研究工作被用来支撑更加复杂的应用场景。多学科多领域交叉研究成为一个新的特点。小样本学习在业界逐渐为人所关注。整体来看呈现以下趋势：
（1）多模态（Multimodal）。
多模态并非 2020 年提出的新概念，但是 2020 年对于多模态的研究热度较往年相比提升了很多。
目前 NLP 领域多模态研究主要集中在跨语言和视觉的模态研究上，且多模态知识图谱也逐步成为一个新的趋势。多模态研究包括多模态信息对齐，多模态文本生成，多模态推理，多模态表示，基于语言的视觉导航等。
多模态研究的基础是模态融合和语义对齐，现在有很多工作研究从图片或文本中提取出结构化的知识，进行语义对齐。
目前多模态的相关研究还处于起步阶段，什么场景使用以及如何使用还需要进一步探索。
（2）任务复杂化（Task complexity）。
关系抽取任务已不满足于抽取封闭的三元组关系，而更贴合实际情况，出现了很多复杂关系和开放关系的抽取任务。例如，2020 LIC 比赛中关系抽取赛题相比 2019 年增加了复杂关系抽取；部分关系抽取工作从句子级别向篇章级别和多文本抽取过渡；很多研究开始探索如何利用深度学习模型自动发现实体间的新型关系，实现开放关系抽取等。
对于常规的信息抽取任务，已经逐步往语义理解上转变，并基于此衍生出很多阅读理解和知识推理的任务。
在实体融合和指代消解等任务上的研究，场景也更为复杂，逐步向深层次语义理解和知识推理演变。
（3）零次学习（zero-shot learning）和小样本学习（few-shot learning）。
Zero-shot 和 few-shot 一直是知识抽取研究的难点，2020 年对于 zero-shot 和 few-shot 有了更多深入的研究，包括利用集成学习、多任务学习、预训练模型、知识表示等方法结合深度学习模型进行的相关探索。
预训练模型的发展使得很多知识抽取工作的瓶颈下降，但是相对来说，领域迁移和冷启动问题还是目前的难点。近几年出现了很多结合知识图谱进行知识表征，添加多模态信息，结合多领域进行多任务学习等融合多源知识的相关方法和研究，并取得了一定进展。
多学科多领域交叉也是 NLP 和知识图谱领域在 2020 年比较大的特点。例如知识表示，包括文本表示、图表示、多模态表示之间的交叉和结合研究。
同时在知识抽取的多种任务中，都有多领域多学科结合相互指导优化的发展趋势，不同任务，不同学科之间的边界变得越来越模糊。
科学研究者们已经不满足于一些简单的知识抽取任务的实现，开始探索更贴合实际的应用场景。对于任务的探索边界也越来越不明显，并出现了很多结合多源异构信息的相关探索。除此之外，多模态和知识图谱表征仍然有很大的发展空间。
2．知识融合知识融合方面一直以来都面临两个重要的技术挑战，一是数据规模的挑战，数据量大，种类多样性，存储位置不同、结构不同；另一个是数据质量的挑战，数据命名模糊，格式不同，数据缺失，噪音问题严重。
一直都是知识融合方面面临的严峻挑战。
数据规模方面，行业算力的不断提升使实用系统可以有效处理更大规模的图谱数据。
数据质量方面，在处理不同知识图谱对齐问题中，本年度提出了一种不同知识图谱中语义相似的实体进行关联时的噪音问题的解决方法。在现有方法大多都是面向干净数据的前提下，带有噪音检测和基于噪音感知的实体融合方法探索出了一种鲁棒的实体对齐方式，鲁棒性的跨语言实体对齐模型，通过图神经网络建模知识图谱中的实体对，得到噪音感知的实体对齐模块，利用生成对抗网络来生成噪音实体对并训练一个噪音判别器，识别出干净的实体对。
3. 知识推理知识推理方面，多种新颖观点在顶级会议上被提出，例如：图谱推理在图像视频描述生成领域的应用，以及垂直领域的推理任务等。
在常识问答方面，可以基于图的上下文表示学习和基于图的推理方法，利用不同结构的知识源进行常识问答。不针对于具体领域和具体任务，本年度还提出了一个 RNNLogic 的概率方法，该方法包括一个使用递归神经网络生成逻辑规则的规则生成器，和一个带有逻辑规则的推理预测器，并使用基于 EM 算法的优化，从学习逻辑规则的角度给出了一个知识图谱推理的有效方案。
另外也有基于知识图谱的向量嵌入技术，完全基于向量操作进行推理演算；基于 Neural Logic Programming 框架，在数值推理问题方面也向前迈进了一步。
图机器学习图机器学习领域目前刚刚到达图论和机器学习的交叉点。包括图上深度学习的启发式应用到图模型范围等问题都在进行广泛和深入的研究。
同时，知识图谱与机器学习相结合的研究也逐渐增多，相关研究成果在顶级会议上的提交率有所增长：
1. 在图嵌入方向，学者提出了一种新的 KGE 框架自动实体类型表示（AutoETER）[21]，通过将每个关系看作是两个实体类型之间的转换（translation）操作来学习每个实体的潜在类型嵌入，并利用关系感知映射机制来学习每个实体的潜在类型嵌入；
2.知识推理方向，学者提出了一种新的框架，用于嵌入学习和跨多个特定语言的 KG 进行集成知识迁移。该框架将所有 KG 嵌入到一个共享的嵌入空间中，在那里基于自学习捕获实体之间的关联。然后，进行集成推理，合并来自多个特定语言 KG 嵌入的预测结果；
3.知识图谱与推荐系统结合方向，学者首先算出图中各类型节点的嵌入，结合注意力机制，利用邻居节点为中心节点提供更丰富的信息，然后利用传统的“头结点+关系=目标节点”的方法训练最终的图嵌入表示，最后接入下游的推荐系统模型。此外，图神经网络 GNN 被广泛应用于图机器学习。
图数据库为了满足强关联和网络型数据的存储、查询和大规模图分析的性能需求，图数据库在其底层数据结构的设计上也尽量贴合关系数据的sousuo模式，减少磁盘的 I/O 操作时间。传统关系型数据库的 B+树数据结构在数据检索和随机数据读取上有优秀的性能，而对于关系数据的遍历则显得相形见绌了。
分布式图数据库在对图分割上有以点分割和以边分割 2 种方案。越来越多的新型分布式图数据库会选择以边分割的方案，甚至是把图节点的属性和边同样对待，统称为谓词。相同的谓词会存在同一台或几台机器上。这样很多查询，特别是多跳查询可以集中在少量的机器上完成，大大减少数据传输带来的网络开销。新型的分布式图数据库在百亿数据量的规模下，单点的多跳查询能做到毫秒级返回。
11月11 — 15日
一、知识图谱概论
二、知识图谱应用
三、知识表示与知识建模
四、知识抽取与挖掘
五、知识融合
六、存储与检索
七、知识推理
八、语义sousuo
九、知识问答

全部评论(1)

点

点云云

#2 回复于2023-01

谢谢分享