产品
解决方案
产品说明
关于我们

Data Analytics

这是一款用于企业数据可视化分析的自助式敏捷BI产品,可以针对企业业务数据进行自由维度的探索式分析,释放IT压力,真正将数据分析工作交还给最懂业务的人,提高企业决策效率。

典型客户:小米、克丽缇娜、雀巢、联合利华.....

Data Analytics 点击试用

Data MAX

这是一款用于企业数据可视化展示呈现的标准+自由定制化产品,将业务数据经过处理后以实时的炫酷的可视化形式展示出来,广泛应用于领导驾驶舱、指挥中心、展览展会等场景。

典型客户:人民日报、富力集团、OPPO、民生银行.....

Data Max 点击试用

咨询电话

400-1024-262

关注DH小助手

可随时微信沟通

首页 > 关于我们 > 媒体报道 > 文章详情
企业如何提升数据质量,实现业务增长。
2019-09-18

数据是企业最具价值的资产之一,而数据质量则直接影响数据的产出和数据价值的高低。因此,数据质量的管理对于企业决策、战略水平和业绩提升至关重要。今天我们就来聊一聊企业如何评估和提升数据质量。

 
一、数据质量是什么

国际数据管理协会的《数据管理知识手册》中规定:数据质量(DQ)是“既指与数据有关的特征,也指用于衡量或改进数据质量的过程

具体可以从以下几个方面来定义数据质量:

 从用户层级定义数据质量:即满足特定用户预期需要的程度

● 从数据本身定义数据质量:即从数据质量的指示器和参数指标等方面来衡量

● 从数据约束关系定义数据质量:即从数据的原子性、数据的关联性及对数据的约束规则来度量数据质量

● 从数据过程定义数据质量:即从数据能被正确使用、存储、传输等方面定义质量

 
二、数据质量问题有哪些危害

当前越来越多的企业认识到了数据的重要性,但数据是一把双刃剑,它能给企业带来业务价值的同时也是企业最大的风险来源据IBM统计:

● 错误或不完整数据导致BI和CRM系统不能正常发挥优势甚至失效

● 数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上

● 低劣的数据质量严重降低了全球企业的年收入

由此可见,低质量的数据将直接导致分析结果的不准确,从而为业务发展和企业决策带来严重影响。

 
三、影响数据质量的因素

数据质量问题产生的原因有很多方面,比如在技术、管理、流程方面都会碰到。一般情况下,企业都有多套的业务系统,这些业务在不同时期由不同的团队开发完成。因此,这些业务系统都参考着不同的标准生产各自数据。滥用缩写词、惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同计量单位的使用等导致系统产生了大量的脏数据。这就是数据质量问题的由来。

影响数据质量的主要因素有:

1、管理因素

是指由于人员素质及管理机制方面的原因造成的数据质量问题表现为:数据来源渠道多,责任不明确;业务需求不清晰,数据填报缺失;数据指标不统一等。

2、技术因素

主要是指由于具体数据处理的各技术环节异常造成的数据质量问题数据质量问题的产生主要来源于数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等环节。 

3、流程因素

是指由于系统作业流程和人工操作流程设置不当而造成的数据质量问题其实,流程因素也属于企业管理范畴。

很多企业认识不到数据质量问题的根本原因,只从技术单方面来解决数据问题,没有形成管理机制,导致效果大打折扣。所以,要改进数据质量问题,要从企业管理和技术两方面入手,才能从根本上,最佳地解决数据质量问题。

 
四、数据质量标准

数据质量通常具有以下维度:

1、完整性

完整性指的是数据信息是否存在缺失,数据缺失可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量更为基础的一项评估标准。

数据质量的完整性比较容易去评估,一般我们可以通过数据统计中的记录值和值进行评估。例如,网站日志日访问量就是一个记录值,平时的日访问量在 1000 左右,突然某一天降到100了,需要检查一下数据是否存在缺失了。再例如,网站统计地域分布情况的每一个地区名就是一个值,我国包括了32个省和直辖 市,如果统计得到的值小于32,则可以判断数据有可能存在缺失。

2、一致性

一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。

数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在特定的格式,例如手机号码一定是13位的数字,IP地址一定 是由 4个0到255间的数字加上”.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV一定是大于等于UV的,跳出率一定是在0到1之间的。

一般的数据都有着标准的编码规则,对于数据记录的一致性检验是较为简单的,只要符合标准编码规则即可,例如地区类的标准编码格式为“北京”而不是“北京市”,我们只需将相应的值映射到标准的值上就可以了。

3、准确性

准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。更为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。 

数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用较大值和最小值的统计量去审核。

一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。

当然如果统计的数据异常并不显著,但依然存在着错误,这类值的检查是更为困难的,需要通过复杂的统计分析对比找到蛛丝马迹,这里可以借助一些数据分析工具,那么具体的数据修正方法就不在这里介绍了。

4、及时性

及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。

 
五、数据质量评估

评估步骤如下:

● 确定需要做数据质量监控的数据指标项,通常会对数据运营和相关管理报告至关重要的数据项。

● 评估需要使用的数据质量维度及其权重值。

● 对于每个数据质量维度,定义表示标准质量和质量差数据的值和范围。特别需要注意的是:同一个指标名称,可能会有不同的度量规则,因此需要执行许多不同的数据质量评估。

● 反复查看并确认数据质量是否可以被接受。

● 在适当数据流转中采取纠正措施,例如:清理数据并改进数据处理流程,以防止问题再次发生。

● 定期重复上述步骤,以监控数据质量趋势。

通过对不同时期数据的分类处理,做到事前预防、事中监控、事后改善,有助于从根源上解决数据质量问题,为企业的发展带来突破和创新。

随着互联网时代的来临,企业面对的数据已经远远不是简单的业务数据,而是来自网络和各种设备的大量结构化和非结构化数据。企业需要严格控制数据质量才能最终实现数据的价值以及业务的发展。

热门文章
免费试用DataHunter产品
Data Analytics
业务驱动型BI工具
免费试用
Data MAX
极致性价比的大屏可视化产品
免费试用
Data Formula
敏捷型数据中台
免费试用
Copyright © 2018 北京数猎天下科技有限公司 | 京ICP备16063904号-1