整理数据是对收集到的数据进行预处理,使之变成可供进一步分析的标准格式的过程。
需要整理的数据包括非标准格式的数据、不符合业务逻辑的数据两大类。
非标准格式数据例如文本格式的日期、文本格式的数字、字段中多余的空格符号、重复数据等。
在零售行业中,不符合业务逻辑的数据非常多,比如为了冲销售额可能会有不真实的销售数据进系统,大量虚假的会员购买记录,电子商务中的虚假点击,等等。
曾经有一个服装专卖店,该店铺年销售额的65%来源于同一个会员顾客的购买行为,不用说都知道,这个会员数据是不真实的,如果我们用这样的数据来分析会员顾客的购买行为,结果可想而知。
数据整理的好与坏直接决定了分析的结果。
整理数据的方法主要有:分类、排序、做表、预分析等;
逻辑有理口径、看异常、查大数、观趋势等。
工具可以利用Excel中的分列、删除重复项、透视表、图表、函数等功能来辅助整理。
数据整理是很重要的一环,通过数据整理,可以发现很多问题。