首页 > 科技 > 问答 > 科技经验 > 为什么构建知识图谱,如何构建知识图谱

为什么构建知识图谱,如何构建知识图谱

来源:整理 时间:2022-06-08 11:56:32 编辑:科技知识 手机版

构建知识图谱,需要掌握一些工具,比如爬虫、二次等。如果掌握了工具,构建知识图谱并不难,难的是大数据源。一个是开放领域的知识图谱,一个是垂直领域的知识图谱。数据是构建地图的最大绊脚石。只要有数据,简单使用neo4j或者其他工具就可以构建地图。

如何构建知识图谱?

目前的知识图谱分为两类。一类是开放域的知识图谱,另一类是垂直领域的知识图谱,首先就是要先处理数据互联网上的数据基本上都是结构化的,非结构化的和半结构化的。结构数据一般就是公司的业务数据,这些数据都存储到数据库里,从库里面抽取出来做一些简单的预处理就可以拿来使用。半结构化数据和非结构化数据,比如对商品的描述,或是标题,可能是一段文本或是一张图片,这就是一些非结构化数据了,

但它里面是存储了一些信息的,反映到的是知识图谱里的一些属性。所以需要对它里面进行一个抽取,这是构建知识图谱中比较费时费力的一个工作,从数据里需要抽取的其实就是之前所提到的实体、属性、关系这些信息。对于实体的提取就是NLP里面的命名实体识别,这里相关的技术都比较成熟了,从之前传统的人工词典规则的方法,到现在机器学习的方法,还有深度学习的一些使用另外还需要做的是实体对齐和实体消歧。

关于实体对齐,举例来说,比尔盖茨这四个字是中文名称,BillGates是他的英文名称,但其实这两个指的是同一个人。由于文本的不一样,开始的时候导致这是两个实体,这就需要我们对它进行实体对齐,把它统一化。另外是实体消歧,举例来说,苹果是一种水果,但是在某些上下文里面,它可能指的是苹果公司。这就是一个实体歧义,我们需要根据上下文对它进行实体消歧,

其次,在完成了以上步骤之后,接下来就是本体抽取。比如说公司是一个机构,它是有这种上下流的关系的,对于平级的也需要计算一个他们的相识度,比如比尔盖茨和乔布斯在实体层面,他们是比较相似的。他们都属于人这个实体,他们跟公司的差别还是挺大的,所以需要一个相似度的计算。在以上步骤完成之后需要对知识库进行质量评估,

如何构建健康知识图谱?

可将医学知识图谱构建技术归纳为五部分,即医疗知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库,1)医学知识表示。知识表示是为描述世界所做的一组约定,是知识符号化、形式化、模式化的过程,主要研究计算机存储知识的方法,其表示方式影响系统的知识获取、存储及运用的效率,

在医疗领域,实体维度包括疾病、症状、检查、检验、体征、药品等等医学名词,甚至医生、科室、医院也可以纳入范畴。关系是指实体间的关系,比如,针对疾病和症状,关系可有“包含关系”,“不包含关系”,甚至“金标准关系”(比如,所有炎症都会带来发热,这就是金标准),疾病和医生可以定义“医生擅长治疗疾病”,医生和医院可以定义“归属于关系”等等。

这些都是知识图谱的构成,2)医学知识融合。在医疗领域,Dieng-Kuntz等人将医疗数据库转换为医疗本体,然后对其他文本语料使用半自动的语言工具进行语义提取,在人工控制下对本体进行扩展和补全,并用启发式规则自动建立知识的概念层次,Baorto等人将数据源添加到临床信息系统时先确定数据的控制术语是否已经存在,然后将新术语添加到MED(MedicalEntitiesDictionary),同时建立审计流程以保证引入数据的一致性。

3)医学知识推理,医学知识图谱必须处理大量重复和矛盾的信息,增加了构建医学推理模型的复杂度。传统的知识推理方法包括描述逻辑推理、基于规则推理和基于案例推理等。

文章TAG:为什么构建知识图谱图谱构建知识

最近更新

  • 有的商家发顺丰为什么可以发带电池的电子产品,商家竟然发的顺丰快递

    当时我们有一个食品分类组,里面很多商家,直接是厂家,占了店铺的一半。因为马云要动快递、三通一达的奶酪,无法独立生存。只是他被马云牵着鼻子走,结局肯定不好,最惨的是换成马云自建物流。SF有独自生存的能力。国内靠谱的物流有话语权,所以顺丰不想被马云黑。这不是商业秘密。马云之心路人皆知,所以可以说顺丰拒绝了马云的菜鸟网络。伦纳德·克莱恩洛克出生 ......

    科技经验 日期:2022-06-08

  • 安卓系统为什么臃肿,安卓系统每年都说更流畅

    说实话,安卓这几年在系统流畅的线条上下了不少功夫。安卓不会自动清理后台。有的安卓手机厂商优化不了,或者用的人不知道怎么用好。久而久之,手机开始卡顿。熟悉Android系统开发的R ......

    科技经验 日期:2022-06-08

  • 苹果为什么嚣张,美国如此嚣张从哪儿来的底气

    卖猪肉的梁屠夫,告诉我为什么宇宙不是上帝主宰的。为什么现在科学在发展?反而有人认为宇宙是上帝主宰的。普朗克常数h定义的量子是宇宙中最小的粒子,是宇宙中最基本的变化载体。对宇宙真理的探求是无止境的,虚无不是“无”而是“有”,但这个“有”是不能永远停留的“变”。为什么在抗美援朝战争中输给毛主席?苹果公司认为,苹果手机的很多部件都是中国制造的, ......

    科技经验 日期:2022-06-08

  • rx480 为什么没有了,rx480都8g显存了

    想象一下,一个花粉进华为手机专卖店,预算4000元买一部手机。推荐荣耀30Pro还是华为P40?华为和荣耀是同级还是上下级,华为和荣耀是什么关系,兄弟还是父子。买华为意味着产品力比较弱;买荣耀伤害了华为的品牌,感觉在一个窝里。与AMD相反,NVIDIA在内存容量上一直很吝啬。GTX10系列显卡好歹用了6g/8G内存,比AMD晚了整整一代。 ......

    科技经验 日期:2022-06-08

  • 太阳为什么温度最高,为什么不会融化

    这也是不对的。如果时间拖得足够长,随着太阳物质核聚变的继续,物质元素融合成铁元素,基本停止反应。重的铁元素会落到太阳表面,或者形成一个固体的太阳球体。随着越来越多的铁落下,对底层的冲击能量非常大,从而刺激进一步聚变,聚合成更大的元素。但是,这个过程会吸收能量,这会降低太阳的温度。这个过程持续一定时间后,太阳就不是太阳,也不是恒星,也不会发 ......

    科技经验 日期:2022-06-08

  • 流量卡为什么好卡,为什么移动的无限流量这么卡

    无线流量限速问题运营商提出的无线流量卡并不是真正的无限流量。你以为便宜的是垃圾物联网卡。这是惯例。我觉得12流量卡都是正规卡,去过无数坑,所以知道这个月租49块钱很贵,但是100g一般流量和100g定向流量是目前最值得的。武昌板块大部分人的祖籍是江夏,也是因为江夏离武昌近,还有一部分是湖北省下地级市县的。原因是武昌高校多,很多学生来自外省 ......

    科技经验 日期:2022-06-08

  • 为什么火星叫火星,那么金星为什么不叫火星

    他实际上是苏联的二号人物。斯大林死后,他一度有可能成为苏联的领袖,但在他春风得意之时,却被昔日的战友处决了。苏联只用了20多年就赶上了美国。那么,你认为苏联的科技是先进还是落后?我真的想要一个解释。苏联被迫走向战场。自己人打自己人很刺激,德国人还是很强的。苏联人是怎么打败德国人的?据分析,火星最初形成时是有磁场的。(生活会是另一种形式。) ......

    科技经验 日期:2022-06-08

  • 为什么摩拜单车变少了,摩拜单车为什么这么难骑

    没办法,穷成这样。买二手的,打折的就行。喜欢苹果手机的人有以下几种可能:全新的6800元左右,二手的4000元左右,没有五官的才2000多点。价格差别还是很大的,所以有些人喜欢便宜的,没有太多预算。没有五官,可以使用密码,不影响其他功能,所以就买便宜的。2016年4月22日,北京摩拜单车科技有限公司在上海召开发布会,正式宣布摩拜单车服务落 ......

    科技经验 日期:2022-06-08