5周年系列技术文章》专栏·第08篇
00
前言
阿里巴巴一直将数据作为自己的核心资产与能力之一,通过多年的实践探索建设数据应用,支撑业务发展。在不断升级和重构的过程中,我们经历了从分散的数据分析到平台化能力整合,再到全局数据智能化的时代。如今,大数据平台面临全新的挑战,特别是降本等数据治理需求的不断出现,今天阿里云 DataWorks 团队将其中一些建设经验与大家进行一些分享。
01
数据繁荣的红利与挑战

数据稳定性不足
数据应用效率低
数据管理风险大
数据成本压力大



02
阿里巴巴数据治理平台建设实践
一、数据生产规范性治理






二、数据生产稳定性治理
凌晨1:30,收到电话告警,机器人自动播报“XX任务已延迟XX分钟,请尽快处理!” 凌晨1:31,起床打开电脑,处理告警问题,1:40、1:50、2:00,电话告警不断轰炸,手机不断震动,前往客厅办公 凌晨2:00,对于上下游任务逻辑不太清楚,拉起一批同学起夜 凌晨3:00,老板被Call醒,打来电话询问情况,沟通后续处理方案 凌晨5:00,所有任务处理完成,等待集群资源计算数据 上午7:00,睡眼朦胧,起床前往公司上班 上午9:00,刚出电梯口,被业务小二围住追问数据产出时间,并开启一天的工作
起夜率
基线破线率




三、数据生产质量治理



通过管理机制和平台体系,让每一张数据表都有负责人 平台能自动追溯表与表之间的血缘关系 末端表标注业务重要性,向上追溯链路中的表,以业务作为抓手来治理质量问题 ETL作业统一调度,质量监控与调度系统集成,做到事中即时智能管控




四、数据应用提效治理
找数难
用数难


页面布局可以切换上下布局和左右布局,左右布局可以更好利用一些外接显示器场景,显示信息更多 SQL编辑器提供自动的代码补全,代码格式化、代码高亮等能力 查询结果展示可以分为明细数据模式和图表模式,支持拖拉拽进行快速地图表编辑 针对数据的上传和下载开通了快捷入口,也支持针对数据下载条数进行管控



五、数据安全管控治理
存储量大、用户种类多:由于数据仓库/数据中台是集成的、反映历史变化的,因此注定了企业的数据仓库集中存储了各部门、各业务系统的数据,阿里巴巴内部的一张宽表动辄达到TB级别的存储量、每日新增上百张表与数百GB是不可避免的事,这些数据不仅包含结构化数据,也包含非结构化、半结构化数据。如果我们希望将这些数据进行精细化的管理加密,会导致数据分级分类成本过高、耗时较长及遗漏的问题。 用户基数大、用户种类多:数据中台是用于服务企业决策、日常分析的基础设施,在数据采集阶段,通常由开发人员配置任务将数据导入至数仓,加工阶段由数据工程师进行代码开发与侧,使用阶段则由各类运营、分析师通过各类Client来进行即席查询,也包括某些业务系统的直接调用。之前我们提到了,阿里巴巴,每天有数万名员工(包括:开发、运营、分析师、销售、HR等岗位)以各类方式接入使用数据仓库。如此多的人员授权就成为了难题,特别是在人员入职、离职、转岗场景,管理员需要花费大力气维护人员权限,非常容易出现过度授权、权限蠕变等问题。 客户端操作界面多样性:在使用数据仓库的人员中,部分开发人员会通过命令行直连,大多数人员则是通过可视化界面与自己的认证信息连接使用。由于不同数据应用所提供的服务、所服务的群体不一样,因此某些业务团队会自行开发适合自己的客户端界面以达到业务所需效果。而实际上授权过后的操作行为就是不可控的,各界面上的人员操作是否合理、是否符合工作所必需的原则是难以管控的。 数据流转链路复杂:数据在采集&传输、生产&开发、分发&使用阶段都涉及不同的流转链路。在采集&传输阶段,工程师可能通过离线、实时链路在内网、公网进行数据传输;在生产&开发阶段,少量数据会被从开发环境加载到生产环境用于测试,大量数据则会设计跨项目、跨DB读取与写入;在分发&使用阶段,由于不同业务系统处于不同网络环境,因此存在大量数据回流(出数仓)行为,这些行为可能通过数据服务API、离线同步链路来实现,同样可能涉及公网、内网。如此复杂的流转链路对加大了管控某些不合规数据流转行为的难度。 结果数据交付:数仓中最终可用于支撑分析决策的数据绝不是通过简单逻辑就能加工得出的,通常会涉及多团队、跨系统、多处理逻辑的交付,常见的数据产出逻辑可能涉及通过多个业务团队的数据,需构建十多个层级、总共上百个加工任务的工作流程(DAG)来使用。对不同团队的数据可用性、完整性管理,成为了企业安全管理员一项艰巨的挑战。

梳理敏感数据资产清单并分级分类

建设安全能力并选定安全控制




满足国内包括但不限于等保2.0的所有安全测评。 每日自动化发现敏感记录值、核心表访问流转风险。 100%释放用于数据梳理、分级分类、风险发现的巨大人力。
六、数据成本治理
治技合一
全链路数据治理
组织设计与常态运营

基础设施
引擎能力
平台能力




通过如Hive,Spark,MaxCompute等离线加工引擎处理大规模数据 通过如Flink、Spark Streaming等流式加工技术来实现计算前置,并将计算结果保存在HBase、Redis等系统提供快速访问 通过Clickhouse、Druid等实时系统,计算规模不如离线,但交互式分析能力比离线统计更灵活,支持数据的实时写入,以数据接近源时的状态直接灵活分析。这种纷繁芜杂的复杂架构带来的是极高的维护成本与技术成本。
在离线方面,通过统一存储,统一调度、统一元数据、和MaxCompute无缝打通,数据无需导出至Hologres,实现离线实时一体化架构。 在实时与在线部分,Hologres在存储层,既支持批量数据的导入,也支持在线的实时写入与更新,不管是离线的数据还是实时的数据都可以存储在一个系统,在服务层,支持多种负载,保证了高性能的在线点查应用,也支持灵活的多维分析,提供统一数据服务层,减少数据割裂。

业务高速增长往往配套着计算存储成本的增长,而当面对计算存储的扩容需求时,数据治理组、业务数据治理组、财务等多个团队,需要有一个通用的衡量标准,来判断是否是满足正常业务需求增长所需的资源消耗,还是存在大量资源使用不合理和浪费现象。 而对于技术团队来说,如果要进行面向成本领域的数据治理工作,那到底是业务领域的研发团队需要重点投入,哪些团队来负责治理效果,具体落实治理动作的责任人是谁,通过哪些措施和动作真正最大程度地提升了治理效果,获取了更高的业务ROI,这也需要有一个衡量标准来定义治理的效果。



在治理的过程中,不断丰富完善治理领域:比如在集团内部实践时,治理过程也是逐步迭代和专项拓展的。首期成本治理阶段,治理小组先选择「存储」治理维度进行攻坚,将基于目标治理业务中,关于「存储」维度相关的高ROI的存储治理项,进行规则定义和治理检查。



七、数据治理组织架构及文化建设
数据专业委员会。属于整个集团层面,主要是从宏观层面上的职能确认。CDO为该组织的牵头负责人,作为多个大部门共同执行落地的组织背书方。 数据治理专题小组。从属于集团专业委员会下,更专注于数据治理本身命题的,则是数据治理专题组:制定数据治理规范,协调各团队目标与进度,沉淀各类治理实践,组织数据治理运营等各项工作。 数据治理团队。各个功能部门下的领域数据治理部门,有专注于平台工具建设的数据平台团队、有专注自身业务领域下的对口业务数据治理团队、还有其他协同的财务、法务、安全团队,这些团队都有专人加入整个数据治理的工作中,以财年和季度为时间周期,确定各阶段的治理工作目标。

治理培训。数据治理专题小组通过数据大学,制定一套通用的数据治理课程,分享一些通用的体系、规范、工具的课程,参与培训后还可以参加考试认证。

治理大比武。数据治理专题小组发起各事业部大比武评比活动,从数字结果、长期价值、团队合作、个人成长等各个方面进行PK和评选。有些事业部可能关心计算成本,有些关心稳定性、有些关心规范,项目类型丰富,也是一个非常适合大家互相交流学习的场合。

03
总结

政策法规不断完善
开发治理一体化
自动化数据治理
国家电网大数据中心通过DataWorks实现总部+27家省(市)公司PB级数据的统一管理,通过全链路数据中台的治理与监测运营体系,加快电网整体数字化转型升级。 亿滋中国作为世界500强零食企业,通过DataWorks智能数据建模进行全链路的数据模型治理,极大提升数据中台的自服务能⼒,让企业数据决策实现下放,释放新零售的数字化力量。 友邦人寿基于阿里云搭建金融数据中台,承接了10倍业务流量的高峰,让数据处理效率提升20倍,企业整体算力成本节省达数百万。 “非洲之王”传音互联有力支撑集团互联网业务,数据治理效率提升2-3倍,为集团95%以上的业务增长赋能,带领更多中国企业品牌走向全球新兴市场。 哪吒汽车逐步完善数据治理与数据湖能力,依靠稳定可靠、性能卓越、弹性扩展的大数据平台,未来将支持超过60万+量汽车,数PB级别的数据分析。 三七互娱以DataOps理念激活数据价值,建设自动化、敏捷、价值导向的数据体系,解决数据获取难、业务响应慢、数据场景单一等数据消费的痛点,利用数据驱动运营精细化。 创梦天地基于开源的EMR引擎,用DataWorks替换自研调度系统,企业内部的技术人员可以更加专注业务,助力游戏行业的数据化运营。
数据治理是一个庞大的话题,涉及广泛,DataWorks作为工具型的产品,不变的是围绕用户为中心,让开发人员减少低效的重复劳动,全方位提升企业数据效率,为企业降本增效。如果想了解更多DataWorks及文中相关产品信息,可以在阿里云官网找到我们。最后,我们也非常感谢集团内各个兄弟部门及阿里云上各个行业的客户给我们提供了很多场景与建议,也欢迎与其他专家进行深度的交流探讨。
04
DataFun 5 周年
5 years
京东李海波:OLAP关键技术演进思考 王喆:"深度"学习计算广告
阎志涛:数据平台的演进与发展
金雅然:因果推断主要技术思想与方法总结 深度学习中的拓扑美学:GNN基础与应用 图数据库的发展脉络与技术演进