案例2:使用交叉列表分析用户流失

由案例1,引出了一个新概念:验证型数据分析。即分析前,我们了解问题大概出在了哪里。
但当我们不清楚是什么引起的时候,就需要采用另一种分析方式,探索型数据分析——交叉列表统计。

交叉列表统计,其实就是对多个字段进行Group操作,多用于探索型数据分析。
其目的就是为了找到真正在影响数据的因子及其值。

拿百度文库中的素材来说下

事故类型 百分比
从未在驾驶中出出过事故 62%
在驾驶中至少出过一次事故 38%
总计 100%
被调查人数合计 14030

我们现在想了解,出事故跟什么因素关系较大?

按照性别分组看一下

事故类型 男性 女性
从未在驾驶中出出过事故 62% 62%
在驾驶中至少出过一次事故 38% 38%
总计 100% 100%
被调查人数合计 7080 6950

并不是性别引起的,因为概率都是一样的。

加入行驶里程之后

事故类型 男性 女性
大于15000公里 小于15000公里 大于15000公里 小于15000公里
至少出过一次事故 70% 45% 70% 45%
被调查人数合计 6270 820 6155 795

通过属性性别公里数交叉分析,就可以知道,性别不是改问题的影响因素,而是行驶公里数。这就是交叉分析探索数据的场景。