不过,有些旧有模式,比如即席查询在中国视角下会一直存在,因为很难从别的应用场景完全替代它。数据分析平台体系建设中原银行目前规划了一套数据平台体系,但目前这个体系还在演进。在过去几年,中原银行大概做了将近 1000 张报表、20 多个主题的自助分析以及数据实验室的平台。这些平台面向的人员有所不同,报表主要面向数据使用人员;自助分析主要面向条线,比如给领导编制报表和往下发布数据的人;数据实验室主要面向一些有科技背景的人员,比如建模师。
除了上述三大平台,中原银行还建立了一个社区平台,我们把这些统称为一站式分析平台。数据驱动创新社区的建立是为了引领行业数据驱动的发展,目前,科技部正在主导这个社区的建设。我们会在该社区大量地发布一些数据驱动的内容,比如,数据分析报告,文章等。个人认为,像数据驱动这种工作的推动,将来一定是业务牵头的,因为即使技术人员有思路也很难达到盈利,所以需要站到业务角度上去实践,现在,我们会把自己的技术人派遣到业务部门,学习在业务场景下进行分析。
前面提到的这几种数据分析平台还是比较偏技术方向,不过我始终认为,未来一定是场景化的方向才有发展。因为场景化的成本更低,比如,更低的使用成本,场景化让业务人员使用更方便;更低的人才成本,场景化的应用不需要招很多技术人员。面向大数据的综合分析平台架构这是中原银行目前面向大数据的综合分析平台架构,在这方面各行差异不大。
不过,中原银行集市做的很薄,只有一个贴源的 ODS,以及 4-5 块集市,比如管会、内部运营、营销等,与其他银行相比,中原银行是一个非常轻的架构,从贴源可以直接到集市,有的集市甚至没有指标加工,就直接整合明细,再到自助分析、报表,有的也往实验室里面供。个人认为,像自助分析和场景化分析、数据湖这样的思路早晚会替代我们之前做的大量报表,T 0 会替代 T 1,这只是时间问题,所以,我们整个架构现在也在往这边迁移。
分析平台建设实践—性能优化在前几年中原银行对分析平台做了一些性能调优。一般刚开始从报表转到 BI,肯定会面临性能问题,因为 BI 本身是一种以空间换取灵活性的方式。我们采用大数据技术支撑计算,用了 30 个物理计算节点,大概有二三十个面向大数据反范式设计的主题模型,也就是宽表模型,因为宽表模型牺牲了很多空间的代价,在这个大数据的平台上一般会跑得比较顺,冗余度高一点,性能会提高。
不过,大数据平台的一个主要特点是成本较低,扩容方面也可以接受,所以我们现在更多选用这种方式。分析平台建设实践—质量提升数据质量提升,是中原银行今年的重点,我们准备启动一个新的数据治理项目。下面简单介绍下:我们建设了一个在线口径管理的渠道。举个例子,现在业务在看报表发现数据问题的时候,会有一个线上的渠道直接在上面反馈问题,之后会有专门的技术人员跟进,除此之外,我们还有一个类似知识库的渠道,该渠道有利于口径的沉淀,但是,对数据的治理,比如主数据、标准管理,我们还需要进一步完善。
分析平台建设实践-灵活性提升这个是中原银行的 BI 平台,总体来说使用还不错。我认为银行到一个阶段必须做 BI,如果没有 BI 很难把数据驱动的思路真正地让业务落地,因为业务人员无法直接接触数据,很难了解数据在未来的作用。只有他们把 BI 用熟了之后,你才能告诉他以后可以做场景化分析和预测类分析,现在中原银行就是沿着这样的轨迹发展。
分析平台建设实践—数据安全管控金融业会涉及很多敏感数据,特别要注意数据安全问题,为了保证数据安全,我们做了一些技术上的加工,比如:下载管理,我们建立了完善的数据使用审核流程和设定了数据最小访问授权,按需分配报表访问权限;实时脱敏,Smartbi 支持不同形式的数据脱敏展现,可以实现前台敏感信息的脱敏展示,对像身份证号这样的敏感数据在实时展现时会隐去;使用痕迹的管理,我们会统计发布报表访问数据,促进报表使用过程中的自我监督和相互监督,便于及时发现因岗位调整,多余授权带来的数据泄漏风险;行为监控,我们利用大数据与机器学习技术,建设数据安全智能分析预警平台,对数据操作行为进行智能化监控,防范内部数据安全事件。
未来建设规划—数据深度探查服务体系我们的未来建设规划大体如上图,目前来说,我们还处于数据探索和多维分析阶段,在今年我们启动了几个数据建模项目,下面列举一二。我们启动了一个叫做网点的现金流预测项目,要做到精准预测,需要考虑到很多维度,比如网点的维度、人员的维度、客流的维度、天气的维度。因此,这个项目通过分析研究所有网点的历史数据来预测各支行每天需要多少存款,这里的存款指的是现金。