非结构化数据这个“老大难”如何处理？

从事数据工作的小伙伴，不管数据量大小与否，都遇到过如下问题：数据不好，数据不一致，数据不干净，诸如此类。根据《福布斯》的报告，数据专家60％的时间都花费在清理和整理非结构化数据上。以下这些经验与你共享。

缺少唯一标识符？

要联接两个或多个表，通常要有一个可用于联接表的共有的列，变量，参数等。在这里，我面临着缺少唯一标识符的问题，或者我们可以说缺少主键和外键。那么问题来了，尤其是在跨表报告参数时。

为了解决该问题，我们可以通过连接某些列中的值来创建键，从而构建了一个包含相关列在内的表。

不同的命名法？

在使用非结构化地理数据时，我遇到了同一个地理辖区不同拼写的问题。例如，Chhattisgarh（印度的一个邦）被拼写为Chattisgarh，Chhatisgarh和Chhattisgarh。这又带来了麻烦。

为了解决该问题，我们创建一个临时的映射层，将代码分配给字符串值，从而通过主数据上的代码从主表中获取正确的拼写以进行操作。

尽管在我看来，构建系统会限制用户选择拼写地理名称的方式，而不是向他们提供预先填充的下拉列表，那样问题就彻底解决了。

整理来自不同文件格式的数据

这恐怕是数据治理中一半以上工作时间会遇到的问题了。我不得不处理不同格式的表的数据。例如，一个是SQL文件，另一个是xlsx文件。

这里没有什么可做的，但是可以确定的是，不要错过整体的所有部分，即整理细分数据。

我们无法控制一切，有时需要寻找替代方案。

语言障碍？

这是一个有趣的例子，印度次大陆的语言和方言多样性直接影响数据的一致性。例如，喀拉拉邦的锡鲁万纳塔普拉姆（Thiruvananthapuram）也被称为Tiruvanantapuram，每当遇到这，会使我的日子比平时更加焦虑。在处理城区和市区的城镇级别以及乡村的乡村级别的地理管辖数据时，尤其是在调和数据方面提出了很大的挑战。

解决问题的方式不只一种，模糊逻辑拼写检查器是我们寻找的一块垫脚石，我们试图维持一个评分系统，以协调所提出的正确拼写的数据，它解决了近60%的问题。剩下的40%交给人工解决。

最常见的-数据缺失

各种类型和大小的数据上都可能有数据缺失的问题。

我们正在使用键值对（key-value pair）系统来摆脱之前定义的问题，例如不同的命名法和/或语言障碍等。只有当我们发现至少35％的值缺失时，我才不得不提出使用模式识别算法来估算缺失值，同时保持机制的神圣性，即保持其唯一性。

在遇到其他同质问题时，我们又请数据工程团队不止一次地使用各种数据源重建数据管道来还原一个“真实的唯一来源”。

并不完美的数据架构

如果数据采集，流程和使用方式不规范，则会导致获取相关有用数据的延迟。此处举出由于同一问题而引发的两个实例。

首先，想象一下要从“y”列中获取要在“x”列中收集的数据点。现在，进行架构更改是一项艰巨的任务，因此，我们制作了优化的数据模型，每次输入新一批数据时，这些数据模型都会自动进行更新。

其次，在交付悬而未决的情况下，一个栏位尚未收到任何数据。这意味着要在截止日期前解决，因此我们设法进行数学运算，并使用微分逻辑获取缺失列的值。即使，我们后来收到了我们得出的列的值。

不同的日期格式

在这里引用第3点，由于数据来自不同的文件格式，因此一个变量的列格式也不同也就不足为奇了。

整理数据时，除了进行一些映射和/或转换操作外，我们无能为力。但是，在使用可视化工具时，该问题似乎并不严重，仅需单击几下即可使其变得相关和兼容。

总的来说，清理和整理非结构化数据对于交付高质量的结果是至关重要的。希望这些实例能为现实世界中的实际问题提供参考。

文章部分素材来源：大数据文摘

展开阅读全文

页面更新：2024-05-18

标签：表报福布斯老大难数据语言障碍标识符印度文件格式缺失变量架构乡村地理方式格式

1 2 3 4 5

非结构化数据这个“老大难”如何处理？

缺少唯一标识符？

不同的命名法？

整理来自不同文件格式的数据

语言障碍？

最常见的-数据缺失

并不完美的数据架构

不同的日期格式

改善代码可读性 5个方法送给你

API 架构风格“对对碰”

Transformer爆照，百万像素高清图轻松合成效果迷人

技术发展日新月异 2021年Web开发的7大趋势早知道

数据维度太多，咋办？我们整理了17种表现形式（上）

物联网发展跨越拐点：《2021中国AIoT产业全景图谱报告》

屏幕最大的5G手机，荣耀X10 Max，7.09英寸+5000mAh电池1899起售

iQOOZ1（8+128）和荣耀X10（8+128），价格相差100元，选谁？

仅需2197元，高通865+真全面屏幕，红米K30Pro它是真的香

买华为荣耀5G手机的注意了，这五款都是采用联发科天玑800处理器

4G手机首选，1819元的麒麟990，还有4000万像素+40W快充

vivo X50 Pro、vivo X50 Pro+对比发现，这个“+”很有料啊

OPPO性价比最高的K系列将沦为历史，K5最后的绝唱，仅售1399元

极速十核处理器，8800毫安电池，同样被吐槽到体无完肤

酷派出新款了，大屏无界侧指成锋，cool10 仅售899元

API 架构风格“对对碰”

数据维度太多，咋办？我们整理了17种表现形式（上）

不买中国制造的印度，不买美国制造的中国，真香定律还是逃

全方位解读数据治理，理清90%的混淆概念（下）

区块链：数据资产管理和流通中的一把利器

从五方面发力推动精准顺畅政务数据共享

“碳中和”热议数据中心应该怎么做？

上干货啦！这些数据分析模型你一定用得上

全栈解剖Airbnb 技术架构，就问爽不爽！（下）

全方位解读数据治理，理清90%的混淆概念（上）