首页 > 手机 > 配件 > 结构化数据,Spark结构化API

结构化数据,Spark结构化API

来源:整理 时间:2022-04-07 21:21:10 编辑:华为40 手机版

结构化数据、半结构化数据和非结构化数据是什么意思

结构化数据,Spark结构化API

1.结构化数据:以关系数据库表形式管理的数据,也可以说是指数据库。比如企业ERP、财务系统、教育一卡通这种数据。2.半结构化数据:非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等。3、非结构化数据:没有固定模式的数据,如WORD、PDF、PPT、EXL,各种格式的图片、视频等。

结构化、半结构化、非结构化其实是按照数据格式分类。举例说明如下:结构化数据:公司需要整理员工的资料,将所有员工按照部门、性别、入职年龄等具体属性的格式记录,这部分的数据就是结构化的数据。可以根据固定的模板读取记录的属性值,比如我要查询入职五年以上的员工。非结构化数据: 公司给所有员工做了一个评估,用文档来描述这些员工的工作能力,甚至给每个员工做了相应的信息网页,这些数据就属于非结构化的数据,因为很难通过一个具体的属性来判断,需要更加复杂的方式来分析。

文章TAG:结构化SparkAPI数据

最近更新