首页 > 手机 > 配件 > 如何构建知识图谱,知识图谱构建

如何构建知识图谱,知识图谱构建

来源:整理 时间:2022-04-02 18:01:53 编辑:华为40 手机版

构建知识图谱需要掌握一些工具,比如爬虫、neo4j等等,掌握了工具,构建知识图并不困难,难在大数据源。一类是开放域的知识图谱,另一类是垂直领域的知识图谱。目前的知识图谱分为两类。这些都是知识图谱的构成。数据是阻碍构建图谱的最大绊脚石,只要有了数据,利用neo4j或其他一些工具就能比较简单的构建出图谱。

知识图谱是什么

知识图谱是什么

人工智能时代,大家都在讨论机器学习、深度学习等技术,但如果你持续关注人工智能,你会发现知识图谱这个概念也在被越来越多的人重拾。而知识图谱也确实是人工智能发展到一定广度之后,向深度发展的重要依托工具。传统的搜索方式是基于关键词,给出密密麻麻的网址排序,这种搜索方式并没有真正理解我们的搜索意图。而结合了知识图谱的搜索方式,其关键点在于“知识”,它集合于互联网上的知识于一身,试图去了解世界的真实含义,从信息检索的层次转变为知识积累,因此知识图谱建立认知的过程被看成是最能体现人工智能的方式之一,很像我们人类大脑学习思考的过程,即由点及线,由线到面,一步步理清知识之间的逻辑。

以百度这个全球最大的中文知识图谱为力,其优点可以简单总结出以下三点:1)提供了一种新的搜索方式。例如我们在搜索“地球质量”的时候,百度内涵的知识图谱直接就显示给我们答案,而不是以往那些隔靴搔痒的网页。2)以实体为中心建立丰富的联系。例如我们搜索“杨幂”,既能直接返回给我们杨幂个人信息,也能在右侧推荐出跟杨幂相关的其他实体,并能显示出实体与实体之间建立联系的逻辑,即下图中的推荐实体下方的推荐理由。

1)能够依据知识之间的逻辑进行简单的推理,简单的举例如下图所示。基于逻辑的人工智能是AI的经典想法,就是因为我们发现世界上的知识无法用逻辑真理描述,而且存在很多自相矛盾的情况,后来机器学习(Learning from Data)成了AI的主流,到了今天,我们发现机器学习也有一定的瓶颈,尤其是在问题三的逻辑推理。

如何构建知识图谱?

知识图谱是什么

目前的知识图谱分为两类。一类是开放域的知识图谱,另一类是垂直领域的知识图谱。首先就是要先处理数据互联网上的数据基本上都是结构化的,非结构化的和半结构化的。结构数据一般就是公司的业务数据。这些数据都存储到数据库里,从库里面抽取出来做一些简单的预处理就可以拿来使用。半结构化数据和非结构化数据,比如对商品的描述,或是标题,可能是一段文本或是一张图片,这就是一些非结构化数据了。

但它里面是存储了一些信息的,反映到的是知识图谱里的一些属性。所以需要对它里面进行一个抽取,这是构建知识图谱中比较费时费力的一个工作。从数据里需要抽取的其实就是之前所提到的实体、属性、关系这些信息。对于实体的提取就是NLP里面的命名实体识别。这里相关的技术都比较成熟了,从之前传统的人工词典规则的方法,到现在机器学习的方法,还有深度学习的一些使用另外还需要做的是实体对齐和实体消歧。

关于实体对齐。举例来说,比尔盖茨这四个字是中文名称,Bill Gates是他的英文名称,但其实这两个指的是同一个人。由于文本的不一样,开始的时候导致这是两个实体。这就需要我们对它进行实体对齐,把它统一化。另外是实体消歧。举例来说,苹果是一种水果,但是在某些上下文里面,它可能指的是苹果公司。这就是一个实体歧义,我们需要根据上下文对它进行实体消歧。

其次,在完成了以上步骤之后,接下来就是本体抽取。比如说公司是一个机构,它是有这种上下流的关系的。对于平级的也需要计算一个他们的相识度,比如比尔盖茨和乔布斯在实体层面,他们是比较相似的。他们都属于人这个实体。他们跟公司的差别还是挺大的,所以需要一个相似度的计算。在以上步骤完成之后需要对知识库进行质量评估。

如何构建健康知识图谱?

知识图谱是什么

可将医学知识图谱构建技术归纳为五部分,即医疗知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库。1)医学知识表示。知识表示是为描述世界所做的一组约定,是知识符号化、 形式化、模式化的过程,主要研究计算机存储知识的方法, 其表示方式影响系统的知识获取、存储及运用的效率。

在医疗领域,实体维度包括疾病、症状、检查、检验、体征、药品等等医学名词,甚至医生、科室、医院也可以纳入范畴。关系是指实体间的关系,比如,针对疾病和症状,关系可有“包含关系”,“不包含关系”,甚至“金标准关系”(比如,所有炎症都会带来发热,这就是金标准)。疾病和医生可以定义“医生擅长治疗疾病”,医生和医院可以定义“归属于关系”等等。

这些都是知识图谱的构成。2)医学知识融合。在医疗领域,Dieng-Kuntz 等人将医疗数据库转换为医疗本体,然后对其他文本语料使用半自动的语言工具进行语义提取,在人工控制下对本体进行扩展和补全,并用启发式规则自动建立知识的概念层次。Baorto 等人将数据源添加到临床信息系统时先确定数据的控制术语是否已经存在,然后将新术语添加到 MED( Medical Entities Dictionary),同时建立审计流程以保证引入数据的一致性。

3)医学知识推理。医学知识图谱必须处理大量重复矛盾的信息,这就增加了构建医学推理模型的复杂性。 传统的知识推理方法有基于描述逻辑(Description Logic, DL)推理,基于规则推理(Rule-based Reasoning,CBR)与基于案例推理(Case-based Reasoning,CBR)等等。

Bousquet C 等人使用基于 DAML OIL 描述逻辑执行术语推理来改进药 物警戒系统中信号检测;Chen R 等人采用 RBR 方法开发出糖尿病诊断系统以提供用药建议;CARE-PARNER 系统则是基于CBR给出诊断结果与治疗方案等等。4)质量评估。医学领域,本体评估方法因应用场景而异:Clarke 等人使用基于任务评估方法来分析基因本体的从 2004 至 2012 年的性能;Bright 等使用本体设计原则和领域专家审查意见 作为指标来评估本体在抗生素决策支持系统中的效果;Gordon 等通过将电子病历,诊断案例和临床实践等来构造“黄金标准”来评估,改进传染疾病本体 BCIDO等。

为方便用户进行本体评估和加快本体评估自动化进程,本体评估工具封装了评估方法。不同的工具从不同的视角对本体的不同指标进行评估。针对评估的侧重点,选择合适的工具才能对本体作出 符合应用要求的评估。 比较常用的本体评估工具有:ODEval,OOPS,OntoManager,Core等。除了医学本体,医学知识图谱还涵盖其他复杂多样的信息,因此,质量评估还包括对数据质量, 专家信息,知识库等方面进行评估。

中文知识图谱的构建思路是什么?

首先,你需要收集数据,一般来说,知识图谱都用在相对应的领域内,比如说医疗知识图。数据是阻碍构建图谱的最大绊脚石,只要有了数据,利用neo4j或其他一些工具就能比较简单的构建出图谱。数据一般有两种获取方式,如果你是研究人员,在你的研究领域内对应的结构化大数据就是主要的数据来源;如果只是兴趣,找到你想要构建的图谱的领域的相关网站,利用爬虫工具对数据进行爬取,清洗,整理成比较干净的数据形式,可以存放在关系数据库、.csv、.txt等文件中,再利用图数据库工具建立知识图谱。

区块链技术如何打破知识图谱构建的瓶颈问题?

数据的严重缺乏,是目前人工智能领域发展面临的最大的障碍。区块链用技术作为支撑为知识图谱的搭建提供了一种全新的商业化路径,将知识图谱的搭建任务泛化到更多更广泛的人群,从而弥补阻碍人工智能发展的“最后一块短板”。常识获取虽然已成为当前知识库构建面临的瓶颈问题,但也不是真的一点办法也没有。只是常识体系知识数量的浩大、构建所需的知识粒度之小、工作量之繁杂和琐屑,决定了任何单个中心化的机构都是很难完成的。

然而区块链技术的诞生为这个瓶颈问题的突破带来了曙光,区块链技术的去中心化、开放性、透明性、激励机制等基本特征为我们提供了一套全新的、可实现的数据搭建方案。区块链不依赖于中心的管理节点,能够实现数据的分布式记录、存储和更新。去中心化,意味着多中心化;分布式记账,就是多节点。既然单个中心化的机构无法完成全工程量浩大又琐屑的知识图谱的搭建,那么鼓励更多人群、特别是那些具有专业领域知识的人共同来参与知识图谱的搭建,这个任务是不是就容易多了?去中心化就意味着,任何节点都可以实现数据的贡献、存储和更新;同时任何节点也都可以被替代。

这是中心化机制无法实现的。既然分布式多节点的共同搭建,那么贡献度追溯以及版权保护的问题对于知识贡献者来讲就非常重要了。这个问题解决不好,非常容易引发生态内的不良激励。透明性解决的就是信任、以及可追溯这样一个基础问题。区块链内产生的每一笔交易都是透明、可查询的。并且所记录的数据不可逆,也不可篡改。每笔交易都可以层层追溯到源头,从而判断交易是否合规,也就解决了版权经过多层转让后归属不清的问题。

从事知识图谱构建研究领域有哪些经验值得分享?

构建知识图谱是一个和数据打交道的过程,无论是有现成的结构化数据,还是爬取网页上的非结构化数据。知识图谱本质就是个图数据库,与传统关系数据库相比,可以让我们更直观的“看到”数据之间的关联,因此,和构建关系数据库道理大同小异。如果你对数据不感兴趣,就会感到比较枯燥。构建知识图谱需要掌握一些工具,比如爬虫、neo4j等等,掌握了工具,构建知识图并不困难,难在大数据源。

文章TAG:图谱构建知识

最近更新