产品
解决方案
产品说明
关于我们

Data Analytics

这是一款用于企业数据可视化分析的自助式敏捷BI产品,可以针对企业业务数据进行自由维度的探索式分析,释放IT压力,真正将数据分析工作交还给最懂业务的人,提高企业决策效率。

典型客户:小米、克丽缇娜、雀巢、联合利华.....

Data Analytics 点击试用

Data MAX

这是一款用于企业数据可视化展示呈现的标准+自由定制化产品,将业务数据经过处理后以实时的炫酷的可视化形式展示出来,广泛应用于领导驾驶舱、指挥中心、展览展会等场景。

典型客户:人民日报、富力集团、OPPO、民生银行.....

Data Max 点击试用

咨询电话

400-1024-262

关注DH小助手

可随时微信沟通

首页 > 关于我们 > 媒体报道 > 文章详情
如何防止数据湖变成“沼泽”?这里有几个基本步骤
2019-04-17
在当前BI或者其它数据分析项目的建设过程中,一个普遍趋势是实现数据仓库向数据湖的转变,即把数据或信息汇集到一个结合处理速度和存储空间的大数据系统,例如Hadoop集群或内存解决方案,这样数据可能同时包括结构化数据和非结构化数据。尽管数据湖具有很大的前景,但由于缺乏可治理性,近年来数据湖发展还是受到了许多制约。


在之前的文章里,我们介绍了数据湖的相关知识,商业和技术领导者也一直期待着数据湖可以改变他们利用数据的方式,并通过数据湖来轻松存储更多数据。但是,他们普遍面临一个基本的挑战,那就是如何利用并维护数据湖,来推动业务决策。以下是企业可以采取的四个步骤:

1. 对企业当前的数据现状以及策略进行梳理

企业不应该孤注一掷地投入到数据湖建设之中,而是应该首先梳理企业的各项业务系统,这些业务系统产生了什么数据,有着哪些特征,数据分析需要用到哪些数据?需要明确的是,很多企业并没有实施数据分析与治理项目的经验以及基础,甚至没有构建具备足够可用性的数据仓库,因此数据湖策略并不是他们优先考虑的。

DataHunter 数据治理专家指出:“从DataHunter 为企业提供的数据治理与咨询经验来看,目前很多企业,特别是互联网企业并没有足够清晰的数据策略,数据基础非常薄弱,不仅各种业务系统产生的数据杂乱无序,而且数据孤岛现象也广泛存在。因此,其当前最重要的工作不是建立数据湖,而是对企业数据进行基础的治理

在 DataHunter 的数据治理实践中,其可以为用户提供数据转换和加载(Extract-Transform-Load,ETL)处理服务。能够解决 DBMS 类型、数据量大小、非结构化数据占比等关键问题,从业务系统到ODS做清洗,过滤低质量数据,并进行业务规则的计算和聚合,这样可以为数据湖项目的实施奠定基础。


2.只加载一次数据

将数据加载到数据湖时,企业必须面对两个挑战。第一个是管理大数据文件系统,需要一次加载整个文件。对于小型表,这不是什么大问题,但在处理大型表和文件时,这会对于性能提出非常高的需求。企业可以通过先加载整个数据集,然后仅加载增量更改,以最小化加载大型源数据集所需的时间。这需要仅识别已更改的源数据行,然后将这些更改与数据湖中的现有表进行合并和同步。

企业正面临另一个相关挑战:当两个不同的IT人员将相同的数据源加载到数据湖的不同部分时,负责加载到湖中的上游数据源的DBA会抱怨数据湖消耗了过多的数据加载能力。想要避免这一情况,企业需要建立更强大的数据治理流程。

3.将数据编入目录,以便搜索和查找

当企业需要将数据导入数据湖中时,需要让分析人员轻松找到特定的数据,这也有助于企业避免重复导入相同的数据源。否则,杂乱的数据将会导致这些数据很难被应用。通过简单地实施良好的数据治理流程,企业可以更轻松地使用数据湖并展示其业务价值,同时还可以消除上述多重加载问题。


4.确保数据的质量与可靠性

为了实现数据湖的最大价值,必须保证数据的质量和可靠性——即确保数据湖可以恰当地反映公司业务数据湖需要确保分析人员可以轻松访问,让用户能够更快识别他们想要使用的数据,要实现这一目标,可以通过创建使用不同算法查询的统一存储库等方式来实现。此外,为了高效管理数据湖,企业最好建立能够清理、保护和操作数据的流程。

尽管数据湖中有大量的非结构化数据,但是这并不表明数据的质量就不需要关注,如前面所说的,企业需要对数据进行合理地清洗,降低重复数据、错误数据等低质量数据的占比,这对于企业获得正确的数据分析结果至关重要。

部分资料来源于:(<Four Basic Steps to Prevent Your Data Lake from Becoming a Swamp>, Ramesh Menon)


热门文章
免费试用DataHunter产品
Data Analytics
业务驱动型BI工具
免费试用
Data MAX
极致性价比的大屏可视化产品
免费试用
Data Formula
敏捷型数据中台
免费试用
Copyright © 2018 北京数猎天下科技有限公司 | 京ICP备16063904号-1