防止数据湖变成“沼泽”的四个基本步骤

2019-05-02 09:19

尽管数据湖有很大的前景,但由于缺乏治理能力和较为成功的先例,近年来,数据湖收到了很多负面评论。

企业管理者和技术人员一直期待着数据湖能为企业创造更大价值,但结果却令人失望。但是随着云计算的可用性越来越高,存储巨量数据就像创建数据湖一样容易。然而,最根本的挑战是:如何运用数据湖分析更多的数据来做出业务决策?

技术的复杂性不再是障碍,但企业仍然需要避免一些非技术性的常见错误。以下是企业相关专家和业务人员可以采取的四个步骤,以确保数据湖正常运行:

1. 了解将要用于特定项目的数据

虽然数据湖可以存放大量数据,但是由于缺乏规划性,有些数据湖从建立之初就有先天性缺陷。有些企业不是根据具体需求创建数据湖,而是将所有数据不加分类就存放其中。虽然数据湖的功能就是汇集多种数据和分析数据,但企业也必须在两者之间实现平衡,以实现数据湖的最大价值。

2.只加载一次数据

将数据加载到数据湖时,企业必须面对两个挑战。第一个是管理大数据文件系统时需要一次性加载整个文件。对于小型表和文件,一次加载并非难题,但在处理大型表和文件时,这会变得更加困难。可以首先加载整个数据集,然后加载增量变化,这样就可以尽量缩短加载大型源数据集所需的时间。这仅需要识别已更改的源数据行,然后将这些更改与数据湖中的现有表合并和同步。

企业还面临着另外的挑战,当两个人将相同数据源加载到数据湖的不同部分时,会造成数据湖消耗过多的数据加载能力。因此,有些数据湖因中断用于运行业务的运营数据库而备受指责。这需要更严密的治理流程来确保不会发生这种情况(方法参见步骤4)。

3.将数据进行分类以便搜索和查找

将数据加载到数据湖时,要注意的不仅是方便分析人员搜索该数据,还要避免因数据混乱造成的相同数据源多次重复加载的情况。

载入数据时对其分门别类,这个步骤就算现在不做,以后也一定会做。但是未来进行的数据分类,就不是简单的对号入座了,这无疑是给未来的自己挖坑跳。通过预先计划好的数据治理流程,可以更轻松地使用数据湖并令其价值最大化,同时还可以消除上述多种问题。

4. 记录数据操作 实现高效治理

一旦人们开始使用数据湖中的数据,他们可能会清理它或将其与其他数据集集成。通常情况下,这些人会在项目成功时清理掉其他人可能感兴趣的数据。但是其他人如果只了解数据湖中的原始数据,而不是别人如何使用它,那么他们很有可能重复已经完成的工作。通过记录围绕数据以往的操作,生成相应的数据操作流程,这些流程记录了人们在数据湖中对数据进行的载入、移动、转换等操作,这样有助于实现高效治理。

除了上述步骤,构建良好的数据湖还有其他要注意的事项。但若想让数据湖发挥其最大价值,首要的就是要建立结构清晰的数据湖,防止数据湖变成混乱数据的“沼泽”。???

分享到:
收藏
相关阅读