非结构化数据怎么盘点？

: yeung 这家伙很懒，还没有设置简介...

0 人点赞了该文章 · 78 浏览

非结构化数据怎么盘点？

也是很奇怪的事情，最近几个彭友都不约而同地开始讨论非结构化数据治理的工作，难道是群体意识觉醒了？

大家知道，企业在刚开始做数据治理的时候，常规套路是起一个咨询项目，对现有的情况进行摸底，对已知问题提出解决思路，对未来进行规划。

在遇到结构化数据的时候，这个套路老彭已经很轻车熟路了，但是非结构化数据还真的不太熟悉。

之前做过，但都是“顺手为之”的建设逻辑，真正以非结构化数据为主，经验还有些匮乏。

幸好，老彭彭友圈足够大，非结构化数据治理的大佬也不少。一番请教和讨论下来，也有了一些成果，分享给各位彭友，仅供参考和学习。

如果您这边有更好的内容，还请推荐给老彭，不胜感激！

非结构化数据

一句话简单解释：数据分为结构化数据、半结构化数据和非结构化数据。结构化数据就是能按照数据模型表示的结构存储的数据，具体表现就是数据库中的表、字段、值。

非结构化数据就是无法提炼成数据模型，以结构化存储的数据，具体表现就是各种文档、视频、音频。

半结构化数据就是其中部分信息可以进行结构化存储，部分信息只能“揉成一团”放进开放性的字段里存储的数据，具体表现就是各种日志。

其实在企业中，结构化数据的占比很少，半结构化和非结构化数据的占比会更多。之前看过一份文件里有一个测算结果，结构化数据只占不到20%。

非结构化数据管理

现在我们叫“非结构化数据”，其实之前早就有，叫“档案数据”。对应的组织叫做“档案馆”。

档案馆最初的工作就是进行各类纸质文档、影像资料的管理。具体工作就是进行档案分类、编目、档案管理等工作。

之后档案馆升级，变成“电子档案馆”，对应的工作也就变成了把纸质文件电子化、电子文档智能化、文档内容知识化等工作。

核心工作流程不变，依然是各类档案的分类、编目、管理工作。只不过从原来纸质的文档/录像带变成电子文档/视频文件，由粗笨的档案柜，升级为知识管理系统/文档管理系统。

档案管理工作一般分为两部分：

1、档案管理，包括档案收集、档案分类、档案整理、档案鉴定、档案保管、档案编目等工作。

2、档案利用，包括档案检索、档案统计、档案信息开发、档案编辑和研究(比如档案文献编纂)、档案提供利用等工作。

换到非结构化数据管理，其实都是一样一样的。把“档案”换成“非结构化数据”就行了。

非结构化数据分类

跟结构化数据盘点一样，非结构化数据盘点也是需要分类进行的。否则胡子眉毛一把抓，压根就不知道谁是爹谁是妈。

我们通常会分为文档、视频、音频、图片等类型，但是更具体的分类还得跟业务场景挂钩，比如：

这么分是不是就具体多了？跟业务结合更紧密了？

当然，也有更具体的，比如这个：

这是中石油档案资源分类体系（2020版）的非结构化数据分类标准，是不是就更清晰了？

与结构化数据分类一样，非结构化数据也可以是多分类的。但是一般梳理的时候会按某一个固定分类进行盘点，然后再按业务需要进行多分类。否则就乱套了。

非结构化数据盘点

非结构化数据都散落在各个文件系统中，甚至是以原始物理文件存储的，盘点的时候就不能像结构化数据一样，直接连接数据库读元数据进行盘点。

那怎么进行呢？

首先，盘点肯定还是围绕元数据进行的。既然不能用系统，就只能人工了。

大致流程是这样的：

1、梳理业务流程；

2、整理业务输入；

3、整理业务输出（非结构化数据就出来了）

4、整理非结构化数据元数据，并形成标准；

5、补充业务信息（包括编码、业务分类、业务含义、摘要、标签等）；

6、编制成册

最终的成果就是类似这样的一套表格，包括文档名称、编号、业务所需各类信息。

非结构化数据怎么盘点？

yeung 这家伙很懒，还没有设置简介...

非结构化数据

非结构化数据管理

非结构化数据分类

非结构化数据盘点

免责声明:

推荐内容