产品
解决方案
产品说明
关于我们

Data Analytics

这是一款用于企业数据可视化分析的自助式敏捷BI产品,可以针对企业业务数据进行自由维度的探索式分析,释放IT压力,真正将数据分析工作交还给最懂业务的人,提高企业决策效率。

典型客户:小米、克丽缇娜、雀巢、联合利华.....

Data Analytics 点击试用

Data MAX

这是一款用于企业数据可视化展示呈现的标准+自由定制化产品,将业务数据经过处理后以实时的炫酷的可视化形式展示出来,广泛应用于领导驾驶舱、指挥中心、展览展会等场景。

典型客户:人民日报、富力集团、OPPO、民生银行.....

Data Max 点击试用

咨询电话

400-1024-262

关注DH小助手

可随时微信沟通

首页 > 关于我们 > 行业信息 > 文章详情
如何对于繁杂的数据进行完善整理易于数据分析
2018-10-16

  在数据分析和可视化的过程中,对于所有的数据分析师都会花费多达60%甚至以上的时间在数据清洗上,如何把数据改变成利于我们分析的样子,给那些繁杂的数据进行完善整理,今天我们就通过数据分析公司-DataHunter与大家一起来探讨一下繁杂数据的整理完善。
 

  1、整体瘦身

  当我们拿到一个原始数据表的话,在明确分析目的的基础上,需要将不必要的列隐藏掉,来对整体数据做瘦身。比如,数据中同时有公司全名和公司简称两个字段信息,但是分析过程中,我们只需要一个字段即可,这是可以隐藏其中一个字段。这里注意:尽量不去删除数据,而是使用隐藏方式,保持原始数据的完整,方便后续工作。
 

  2、改名换姓

  当存在英文或者不符合阅读习惯的时候,可以对字段名称也就是excel表中的列名进行重命名,以帮助后续分析理解。
 

  3、拒绝重复

  对ID唯一列的重复值进行删除,一般可以借助excel功能中的数据-删除重复项。
 

  4、填补缺失

  由于人工录入或者数据爬虫等多方面的原因,会出现缺失值的情况,这就需要我们寻找漏网之“数据”,填充空缺值。
 

  1)、如何统计有多少缺失值?

  先看ID唯一列有多少行数据,参考excel右下角的计数功能,对比就可以知道其他列缺失了多少数据。
 

  2)、如何定位到所有缺失值?

  Ctrl+G,选择定位条件,然后选择空值
 

  3)、缺失值的处理方法?

  第一种:人工补全,适合数据量少的情况;

  第二种:删除;

  第三种:用平均值代替缺失值;

  第四种:用模型计算值来代替缺失值。
 

  5、整齐划一

  数据如果没有统一的标准和命名,将会影响后续分析结果,所以要对其进行一致化处理。举个简单例子,以下是从拉勾爬取了一些招聘数据,其中薪水这个字段比较特殊,是一个范围,而不是具体数值。
 

数据分析公司
 

  这里要做到整齐划一,就需要借助分列功能对齐进行操作。现在工作表的后方插入两列,分别命名“最低薪水”和“最高薪水”,然后选中“薪水”列,在excel中选择数据-分列-分隔符号-勾选其他,并在其他后面输入“-”,即可完成。
 

  6、数据排序

  我们对上述所说的最低薪水和最高薪水取平均值后,再进行由高到低排序,就可以大致看出哪个城市给的薪水比较靠前。
 

数据可视化工具

 

  7、异常处理

  异常值的判别:可以参考之前我们提供的箱线图文章,利用箱线图,可以迅速识别异常值。对异常值处理,需要具体情况具体分析,一般而言,异常值的处理方法常用有四种:

  1.删除含有异常值的记录

  2.将异常值视为缺失值,交给缺失值处理方法来处理

  3.用平均值来修正

  4.不处理
 

  经过上述7个步骤,我们就对原始数据做了清洗、美颜。接下来就是进行数据分析和数据可视化的过程了,希望可以帮助数据分析师更好的进行数据分析,更多有关数据可视化工具的相关了解,请关注:数据分析公司-DataHunter

热门文章
免费试用DataHunter产品
Data Analytics
业务驱动型BI工具
免费试用
Data MAX
极致性价比的大屏可视化产品
免费试用
Data Formula
敏捷型数据中台
免费试用
Copyright © 2018 北京数猎天下科技有限公司 | 京ICP备16063904号-1