非结构化数据的意义(什么是非结构化数据)

计算机信息化系统中的数据分为结构化数据和非结构化数据。其中,非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。非结构化数据包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。

非结构化数据的意义(什么是非结构化数据)(1)

非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

再简单点,非结构化数据主要是指那些无法用固定结构来逻辑表达实现的数据,比如用户散落在论坛、微博、微信或其他渠道发表的关于产品的各种评价或吐槽。但国内的企业级客户在进行大数据分析时,仍以分析结构化数据为主。

非结构化数据的意义(什么是非结构化数据)(2)

再具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。

而且,从形态上,非结构化数据主要包含三大块:第一是文本文字;第二是图像、图片等;第三是视频流、电视流。和结构化数据相比,非结构化数据最本质的区别包括三个层面:非结构化数据的容量比结构化数据要大;产生的速度比结构化数据要快;数据来源具有多样性。

非结构化数据的意义(什么是非结构化数据)(3)

据IDC调查,目前企业结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,这些非结构化数据每年增长率达60%。而如何管理好这80%的数据,是企业构建协同办公的关键一环。非结构化数据的存储和流转,大都采用邮件、FTP以及QQ等IM工具为主。这些工具传递文件时速度不稳定,安全性得不到保障,并且无法很好地满足企业中一对多的高频数据传递场景。

而由于非结构化数据中没有限定结构形式,表示灵活,蕴含了丰富的信息。因此,在大数据分析挖掘中,掌握非结构化数据处理技术是至关重要的。处理非结构化数据包括:Web页面信息内容提取;结构化处理(含文文本的词汇切分、词性分析、歧义处理等);语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等);文本建模(含向量空间模型、主题模型等);隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)。

处理非结构化数据时,还需注意这几点:非结构化数据文件数量过多,过大;非结构化数据归集检索调取效率低;传统架构无法按需弹性配置存储空间。

非结构化数据的意义(什么是非结构化数据)(4)

另外,随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术也相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。

而所谓的非结构化数据库,是指数据库的变长纪录由若干不可重复和可重复的字段组成,而每个字段又可由若干不可重复和可重复的子字段组成。简单地说,非结构化数据库就是字段可变的数据库。用它不仅可以处理非结构化数据(全文文本、图像、声音、影视、超媒体等信息),还可以处理结构化数据(如数字、符号等信息)。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页