本文来自12月份对于风控的数据质量建设的一些思考和规划。由于业务战略的变化调整,不再继续建设,也无法通过实践来验证。不过,一些大数据指标方面的质量保障建设体系思考,我觉得还是有价值的,算是抛砖引玉了。
一、背景
在风控整体架构体系中,主要涉及平台能力和特征数据。平台能力,主要关注,规则引擎、处置审核等,风控策略运营都是基于这些平台能力来对所有风险事件进行决策、拦截、处罚、事后追偿等,是风控对外的能力提现。而对于特征数据,则是需要给能力平台的各个关键节点提供数据支撑,如果数据质量出现问题,则同样会影响整个风控最终结果的质量。
对于平台能力的质量测试,和业务测试无差别,因此,其有着丰富的理论经验和实践工具支撑。但是,和能力平台测试不同,关于数据指标的测试,首先存在实践经验的不丰富,之前的测试主要重点在于业务流程测试,对于大数据的测试理论和实践比较缺失;其次,大数据理论本身发展也非常快,同时大数据体系也比较新,每个公司、每个业务对于大数据的建设都存在多少的不一致,进而影响外部分享的数据质量测试方法在风控数据内部的落地;再次,大数据的指标测试由于数据大,可能涉及的依赖数据表较多,并且大多数表都来自各个业务方,需要从上到下去构造数据测试,成本非常大,得不偿失;最后,也是最重要的,风控特征中心是业务中的大数据,其对于大数据的指标生产和使用场景的特殊性,决定了数据质量建设的复杂性。
随着,风控业务的不断发展,对数据指标的需求也不断增多,指标的重要性也不断凸显。在长期对数据指标生产的测试迭代,运行过程中的问题发现和解决,的进程中,会有各种各样基于各个点的思考、梳理和经验产出,但是,还是缺少一些体系化的方法论总结,使得,始终无法总览数据质量治理全局。
因此,本文期望可以对于数据质量的测试和建设,进行体系化的去思考梳理,能够产出一个包含全链路的数据质量治理方法论。