小诀窍:不妨尝试从交付质量上打败对手
小进阶:数据指标体系和数据治理的管理
小尝试:基于指标体系的数据仓库搭建和数据可视化
以下,Enjoy:
0x01 问题场景描述
0x01 我遇见的问题场景描述
前面文章中我们提到过《基于指标体系的数据仓库搭建和数据可视化》,天辰安卓版APP下载强调了指标体系对数据数据仓库搭建和数据可视化的必要性和重要性。例如我们的指标体系如下:
表头:
日期、城市、品类、页面、访问人数、订单数、交易金额
在这个指标体系,依然会存在很多问题,以维度“页面”为例,我们知道在遍历枚举页面值的时候,常常因为埋点数据的历史“包袱”和规则的不稳定因素,导致很多意想不到问题的。
场景举例
1.某产品页面 A 最初上线页面埋点
id:page1234
name:x业务频道页
2.x 时间页面 A 迭代优化,由于信息不对称,页面 A 采用新的埋点
id:page2345
name:x频道推荐页
3.在 x+n 时间页面 A 继续迭代优化,复用在不同的终端系统内,再次因为信息不对称,页面 A 的埋点信息再次更新
id:page3456
name:x业务频道推荐页
备注:埋点数据历史id、name不一致,数据可视化中需要做归一处理;
0x02 数据埋点维度表
基于场景问题的存在,通常要专门维护数据埋点维度表,将种种的“数据埋点”问题,以人工的方式“清洗数据”,比如将以上的场景举例问题翻译为维表数据如下:
说明:
1.将历经3次变动更新的埋点映射为统一的“union_page_id”,进行统一的命名规范“x业务频道推荐页”。
2.以快照的形式保持历史记录,例如2018-10-25更新数据数据的时候只有2条保持为快照,后续每次更新保留一次快照,可以最大限度的在数据回溯和数据问题排查的时候起到作用。
采用“人工清洗”数据的方式也存在很大的成本和困难,尤其是面对动辄数千上万的数据埋点信息,这些数据埋点可能已经积累了数年,历经数百人的沉淀。因此,我们在清洗每条数据的时候理解每条埋点的字符串背后的信息是非常很难的,所以“清洗”埋点数据也必将是一个长期的运营方案行为。
网友回应