首页 自媒自媒体 THU数据派正文

上篇 ▏数据治理为数据资产保驾护航(实录+PPT+视频)

 导读2017年2月18日下午,清华大数据“应用·创新”系列讲座新年第一讲——数据治理为数据资产保驾护航在清华大学FIT楼成功举办。

 本期演讲嘉宾邀请到清华校友、清数-DAMA数据治理委员会秘书长刘晨。刘晨先生从数据治理的意义出发,讲解了数据治理相关的国内外趋势、国际方法与本地实践,结合企业信息化建设环境和历程介绍了数据治理相关领域的发展历史与现状,并结合大数据时代热点问题从数据治理角度为数据资产保驾护航提出建议。

 以下内容为刘晨先生作的题为“数据治理为数据资产保驾护航”的主题报告原文(上篇)。在不改变原意的前提下,部分内容有删改。

 大家好,今天是我们春节结束之后又一个新的周期,可能是今年第一次大数据相关的座谈,专门安排了数据治理相关的内容,感谢大家能到现场来学习。今天我讲的内容是“数据治理为数据资产保驾护航”。数据治理的话题对大家来说还是比较新的。

 我简单介绍一下自己的经历。我是从2008年开始做数据治理,前两天还写了小文章总结了十年数据治理有哪些变化,自己一些知识的成长,行业上的一些变化。在通信、金融、能源、电网等不同行业都参与过一些数据治理的规划,还有具体项目的落地实施,在实践经验方面有一些积累。DAMA是国际数据管理协会的简称,在国际上是数据管理领域知名、权威的协会,我是在2010年开始参与他们在国内的一些工作,2012年和国内一些数据治理、数据管理的从业人员一起翻译了《DAMA数据管理知识体系指南》,今天介绍的内容也会以这本书为主要框架,把其中一些重点领域的理论提取出来。

 数据治理是一个一般意义上的管理活动,虽然我们是大数据的论坛,很多面孔都是很年轻的,可能对于大数据、对于数据的应用,比较关注偏技术、偏操作方面,对于像治理、管理是带着兴趣想去了解和学习的。其实数据治理是理论和经验的结合,就像管理学者说管理既是科学也是艺术,最终是一个手艺。治理也是一样,也是有理论支持的。同时也需要大量实践经验,今天我们也会讲一些案例,需要大家把理论的学习和实操经验结合起来,才能真正感受到治理的重要性。怎么样把它做好,同时也需要一些技术能力,需要对数据有一些理解,有了数据开发、数据库设计、数据处理这些切身的工作经验之后,对治理的重要性和怎么样做能体会的更深。

 今天如果把这些内容展开讲,内容颇多,因时间所限,今天最重要的目的是提升大家对这个领域的认知、重视程度,能够相对体系化地去看待数据治理。以后提到数据治理这个词,至少在某一个讲座上听过,它应该有数据架构、数据标准、数据质量等等这些内容,并推荐一些好的书、清数DAMA协会一些好的活动、好的网站等资源。这是今天主要目的,而非告诉大家出了这个门回去就可以真正做数据治理了。但今天也不是一个抽象的哲学探讨,而是我个人从十年数据治理经验里面切身体会到的,也是现在很多甲方单位、大的国企都在关心的一些话题。我今天所讲也非一个标准答案,而是融合了自己的思考,不同的人可能会从不同的视角看数据治理。

 我首先想将找路和找数据为大家做一个类比。我们找的地方叫做聚能湾大厦,在地图上一查,搜索聚能湾,有六个这样的点。对于一个新来的人想定位这个楼的时候非常难。我们当时三个人在这个园区里转了半天,花了20分钟才找到这个楼。为什么楼起一样的名字,距离又这么远,外来的人很难找。其实它是一个大数据相关的产业园,主导方希望建设能够快速去招商、快速实现产业聚集这样的产业园,招商的规模、招商的量、招商的速度对他们来说很重要,至于楼宇命名的精确性、规划也许在这个阶段就不是最重要的。

 其实这个产业园就像是我们一个大数据平台,集聚了很多很多新的资源需要去招商,大数据平台也是一样,大数据平台要快速地建设,要去快速地接数据,说通俗一点,要大干快上,快速把大数据这件事情在企业里面做起来,这是现在行业里面这几年大数据实践下来总体的作法。当然慢慢现在已经开始在减速,在务实了,但总体还是大干快上的思路。

 而把这些重名的楼比作数据的话,它的数据定义是重复的,同样一个聚能湾分布在不同的地方,应该给它相对不一样的名字,或者ABC、123,有明确的标识。可想而知,当一个数据的用户想到大数据平台里找数的时候,当你的数据是重复定义的、数据的路径是不清晰的,肯定找不到你想要的数据,要花很多的时间。园区也好、大数据平台也好,如果过于重视发展的速度,忽视了质量或者规划的话,会给最终用户带来很不方便的体验。

 接下来分几个方面讲数据治理:

 个人思考

 数据治理究竟是什么

 实例

 行动建议

 国内2011年提出大数据的概念,这几年数据的体量、数据的速度、数据的价值、数据的类型等等内涵都慢慢在变化,最开始是3V,后来是4V,之后4V+1C,然后是5V,把真实性也放进去了。

 接下来我们要讨论的第一点是大数据的技术。大数据的技术,O'REILLY的书里面很多是大数据技术相关的书,我们要有Hadoop的平台,要有传统数据的仓库,要有实时的计算,我们有方方面面大数据相关的技术。这里面每一部分技术以及它的一些原理不是我要讲的,我要讲的是对于一个企业,特别是对于一个传统企业,可能主营业务是金融、矿、发电、电力的传输、电网的运营等等传统业务,要看到一个新的技术时,其实应该更谨慎一些,而不是看到一个新的技术就马上去投资、去跟进、去实施。

 所以我们要思考是大数据技术投资有没有经过论证?现在很多时候企业里面在思考是否要搭一个Hadoop平台,要把哪家互联网企业的云计算直接用在我们企业内部,我们反问他有哪些数据,你的这些数据适用哪些技术,用Hadoop更合适,还是用传统数据仓库就能解决,用这些应用能不能给你带来预期价值,很多企业却回答不清楚这些问题。如果这些问题没有想清楚时,就去做大数据技术的投资,去买很多技术平台,其实是不理性的投资。因此这一思考是十分重要的。

 第二点是大数据应用。

上篇 ▏数据治理为数据资产保驾护航(实录+PPT+视频)
 

 如图,这是波士顿写给金融行业,说金融机构应如何驾驭大数据的。在里面列出了银行业大数据可能应用的一些业务场景。在这里想强调,我们说了很多大数据,究竟这些数据对于企业来说有什么样的用处,在哪些业务环节能够用上?昨天朋友圈里有一篇文章,叫做“一切不以业务需求为导向的大数据战略布局都是XX”,比较强调的是要以业务需求为导向去做你的思考、投资、尝试。我们首先要考虑的是某一个企业,在座有来自于甲方,有来自于乙方,特别是对于甲方这些有数据的单位来说,究竟你自己的业务是什么,可能有营销,有风控。究竟业务是什么?哪些业务场景或业务部门最需要这个数据的应用?我们先帮助他们把这些问题想清楚,然后再去思考大数据应该在哪儿发力,而不是泛泛地谈大数据。我们做大数据尝试本身,要把业务场景想清楚。

 第三点是大数据资产估值与交易。以前公司都有金融的资产,有设备的资产,有人力资源,可能有的地方叫人力资本,强调的都是把这些人、物、金融视为一种资产,能够给企业带来效益。现在更多的概念是数据资产,国内和国外都有一些专家、研究机构去探讨数据资产应该怎么样估值,数据资产怎么能够进企业的资产负债表,都在做一种理论上或逻辑层面、概念层面的一些讨论,都希望把数据资产做一个估值。

 国内数据交易中心,我在网上查了一下,列出来十几个,如果再加上一些乙方单位可能总数有三十多个,所以这是部分大数据的交易平台,可以看到其实是广泛开花的。贵阳有两个:贵阳大数据交易所,贵阳农业交易中心;武汉则有三个,同一个地方就有三个交易中心或交易平台,但是在数据本身的特性去考虑,真的适合交易吗?不一定。另外在这之前你想把数据资产盘点清楚,要有一个估值,然后才想去让它能够交易、变现。但实际上对于一个企业来说,这个企业有哪些数据,量有多大,质量怎么样,能不能用于上市交易等问题,还有安全隐私的机制需要考虑清楚。所以在考虑估值和交易之前还有更基础的一些工作要去做,而不是由政府过早、过快去建大数据交易中心,否则可能都是徒劳无功。

 大家听了这三点后,会觉得我讲的内容实际上和市面上比较热点的内容稍微有一点不同。我认为数据治理实际上应该是让我们能够更扎实、更基础的去发展大数据,而不是仍走大干快上的思路。

 刚才讨论的内容里面,大数据的热点里面基本没有数据治理这个话题,在座的不是第一次听大数据相关的论坛,一定听过很多,但是听过数据治理的同学却非常少,说明数据治理其实没有得到更多人的重视,但是我们认为它还是大数据版图上应该不可或缺的一部分。

 谈大数据时,最开始这个书里面是《大数据时代》的思维,因果相关、模糊精确、样本和权量,这是《大数据时代》那本书的探讨。还有人谈的时候是谈大数据的商业模式,现有传统业务的数据化,公司营销流程数据化,财务的过程数据化,这是第一阶段的数据化;第二阶段是数据的业务化,能够基于我们积累下来的数据做一些分析,能够对内部增值,对外部变现,这是数据的业务化;第三个类型是数据能力的服务化,像阿里、腾讯把自己的数据计算能力开放出来,让社会上的企业用他们的计算能力,这是商业模式层面的探讨,和具体的技术实现没有太大关系,讨论大数据时一部分是在讨论这些内容。

 对于大部分企业来说讨论的是大数据应用,这些应用可能有从增加收入的角度去谈的应用,像促进营销、精准营销、客户体验、更好的客户服务、产品的交叉销售;第二类是降低成本类的大数据应用,供应链更优化、供应商的采购价格能够更透明等等;第三类是监管合规类,像风险管理、给政府报数据等。大数据应用是企业更关心的。

 还有的话题是大数据技术,传统的数据仓库的技术、关系型数据库的技术,像Hadoop这些技术。再下面是大数据资产本身,以前我们关系型数据库有结构化的数据,有文档、有图片、音频/视频、社交数据,现在是微博、微信这种数据,还有机器数据、工业大数据各类传感器的数据,这是一类讨论大数据资产本身的话题。

 这之中不应该缺乏数据治理这部分,因为数据治理要统筹协调这些商业模式的内容、应用的内容、技术的内容,还有数据资产本身的内容,以及思维。所以它是不可或缺的一部分。数据治理是我们企业所预期达到的数据价值的一个最重要的基础,在大数据金字塔的奠基层。

 对于一个公司、一个企业来说,无论是传统企业还是互联网企业,都有自己的业务战略。去年很多企业都在进行“十三五”规划,国家有国家的规划,行业有行业的规划,这里强调战略规划。现在国家层面也有大数据的战略,企业层面也越来越对大数据本身怎么发展有数据战略的规划,其实我们都是希望通过数据战略来支撑我们业务战略的实现,比如银行业,全球排名多少的企业,怎么样去实现?可能要考虑数据上怎么支撑,这是在上层的。数据价值也是在这儿体现的。怎么体现这些数据价值?去搭各种各样的数据平台,可能有数据仓库、BI、新的大数据的平台,各种技术去应用,我们都去搭建数据平台。

 在建数据平台时,有时候比较多关注业务的应用、业务流程、关注应用模块、关注用什么样的技术,这是在架构层面的考虑。很多时候我们忽略了在这个数据平台的数据本身,这些数据可能有客户的数据,客户数据分成多少类?分布在哪些系统里?分布在哪些业务流程里?可能考虑的就不那么多了。跨系统之间数据整合、数据标准有没有定义,如果数据标准不能定义的话,可能系统之间的数据没法贯通,就没法达到上面预期的这些业务的应用、数据的质量、数据的安全。这些是治理层面的内容,直接决定了数据平台本身是不是可靠、可用,最终数据价值能不能出来。这是一个数据价值的金字塔,以前在数据治理层面,大家关注的还都不太够。

 为什么要做数据治理?

 举一个大数据应用的例子,也是早期时搞小的线下交流讨论时,某个互联网企业号称有几亿用户的用户画像,去尝试和传统企业探讨数据的合作,那个传统企业是医疗相关的企业。当时双方决定医疗企业拿出20万用户,互联网企业有5亿用户的用户画像,两边做一个匹配,看能否把互联网企业所谓的用户画像的大数据和传统企业自己的一些小数据做一个整合。当时讨论时,是小范围交流,匹配率只有30%。20万用户,匹配上30%,只有6万用户匹配上了,如果拿这6万再除以几亿,匹配率非常低。一个企业单纯孤立用大数据的可能性是比较小的,还是需要把自己的大数据和企业内部这些小数据整合起来。整合的前提是这些数据有统一的定义、有统一的标准、有高的质量,这样才能够整合起来,整合起来之后才能用。所以从一个企业去实践大数据应用角度,就会提出来数据治理的一些问题、数据治理的一些必要性。这是从大数据应用的角度。

 再从小数据应用的角度来说。用户画像的例子听得比较多,互联网企业也做得比较好,但是这样的例子对于很多传统企业还是很超前的,还远远没到那一步。

上篇 ▏数据治理为数据资产保驾护航(实录+PPT+视频)
 

 如图,一个北京当地国资企业,这些大量企业都在做什么?所谓小数据应用还处在比较早期的统计报送的阶段。企业本身有集团公司,有自己的二级公司,下面有不同的单位,不同的部门,集团管理层每个月要去看它的经营分析报告,还要有一些风险分析报告,集团有资产部、风险部、金融、房地产等不同部门负责编制这些报告。这些部门本身不产生数据,不做业务,只做管理,这些数据从哪来?实际上是从下属单位自己内部的一些部门去收集上来的,我们一般会比喻成下面千根针,这个部门要数,收一次,那个部门要数,又收一次,数据纵向汇报的。集团想要一个净资产收益率这样的数据,6号要提交,公式是什么,某个负责经营计划的部门给集团资产部传了一份资产收益率。财务部门是每个月15号提交,它有自己的定义,这时候下属公司的财务部再传一份净资产收益率。金融事业部也有净资产收益率,自己有自己的定义,那个时候又传了一份净资产收益率。三份净资产收益率肯定都汇报给集团领导人,公司领导看到这些数据时,这些数据对他来说肯定是不一致的,会出现各种各样的问题,公司里面常见的数据质量问题都是在这种情况下产生的,这是一个非常典型的国内各种企业经常面临的问题。数据报送的渠道很多,下面可能会重复报送,上面看到报表时数据有很大程度不一致。再分析财务数据,财务部门要对外做一些报送,快报、月报;要把财务数据报给资产部;财务数据本身还要再往上报;同样一份财务数据,三表的数据在三个路径都会出现,这时候数据的不一致性、数据的质量也是有很大风险的。这个场景是非常典型的一个企业的小数据应用的场景,没有那么多复杂的分析,甚至连数据平台可能都没有,这些都是业务系统,都没有建统一的数据中心,还是靠Excel和邮件去报的,这时候数据有很大的问题。

 数据治理在现在这个阶段,很多企业还是未解决类似这个环节的问题。目前看起来可能很落后,这就是数据治理的现状。这需要大家关注,也需要在座各位参与进来解决。

 我们花了一些时间讲了为什么做数据治理,要解决哪些问题,那么究竟什么是数据治理?

 数据治理 DATA GOVERNANCE:

 数据治理这个词英文是DATA GOVERNANCE,翻译成中文有数据治理、数据管理、数据管控、数据管治等等,大家感觉这个领域比较新,所以就会产生在理论上的困惑。理论上如果有困惑时,在公司真正去推进数据治理工作时就会有更大的麻烦。我们希望通过今天的讨论,在理论上面做到一定程度的统一认识。

 说到数据,大家可能想着就是数据库里面的这些数据、这些数值。这个定义是在DAMA书里面给出来的,数据是以文本、图形、文字、图象、声音等格式对事实的表现。信息是把数据本身的定义、格式附加在数据上面,形成了信息,基于信息再生成知识。这是一种解释。

 第二个解释,在另外一本书上,在去年下半年时我看到了这本书,很喜欢这个定义,就摘出来了。它说的是:数据是对我们真实世界的对象、事件和概念的一些被选择的特征的表示。在座这么多人,是真实世界存在的对象,我们开这次讲座是一个事件,数据是需要把这些人的特征记录下来,把会议召开时间、地点、位置等等信息记录下来,把一些特征记录下来。但是记录特征时需要有几个要求,我们需要把记录哪些特征、用什么方式表示、用什么样的数据结构来表示等这些内容达成一致。

 有的人可能把咱们这些参会人员结构化信息录到系统里,现场可能有一个签到表,这又是一个记录方式,微信上二维码扫码方式,我们用不同方式在做记录。后面要做后续学员管理或客户管理时,会发现这三个信息有不一致的地方,网上报名可能记录170人,现场签到120人,名字和邮箱还不完全一样,这时候就会产生数据管理的问题。这个定义里面很好地强调了对于数据对象的特征、表示方式和数据结构要达成共识,达成共识之后,数据本身还有元数据。基于这个定义,我们可以有一个推论,对于数据本身来说,数据有数据的生成方和使用方,数据的生成方和数据的使用方必须把数据表示方式、数据的结构达成一致,才能减少数据质量的问题。就像刚才那个例子,同样一个楼有两个名字,在园区里面的人是生成方,知道位置在哪儿,但是对于找路的人,其实不知道这个差异,就会造成很大沟通上的障碍,就会有数据质量上的问题。

 这本书的名字叫做《数据质量测量的持续改善》,对数据的定义不仅仅是考究了DAMA对数据的定义,其他专家对数据的定义也考究了,会对比不同专家怎么说,然后提出自己的观点,包括IT和数据的关系,数据部门的人、业务部门的人、技术部门的人之间的关系,在数据工作当中的关系,都做了很多的思考,是很好的一本书,前几章对于基础概念的探讨还是挺深刻的。

 刚才说了数据的定义,把数据理解清楚了是什么。数据是对客观世界的记录和表达,而且要通过一些约定的方式去表达。

 一般企业数据是怎么分类的?

 不能笼统地说数据,要看有哪些类型的数据。比如说金融行业数据分类。从业务视角进行分类,如果太技术的方式,比如跟业务部门的人说什么样的数据库,什么样的技术,他们肯定是不懂的,我们需要用业务的方式跟他们沟通和探讨数据,像当事人(指员工、客户、供应商),资产、财务、发生的一些事件、签的协议、营销活动等等,这些用业务的词汇、业务的术语去跟业务部门和公司领导沟通数据时,他们是可以理解的。可能在座有不少同学是在校的,更愿意去理解技术层面的一些操作的功能,可能也有不少已经工作的工程师,但实际上我们还是要更多用业务的视角去看待我们的数据。这是从业务视角提出来的数据的分类。这下面还有很多可以细化的东西,实实在在都能细化的,协议分类,做数据模型、数据库的设计等等。

 第二个视角是从数据管理的视角提出来对数据的分类,换了一种分类方式,也是很有意思的。我们做数据治理、数据管理时,往往更多是从这个视角在思考问题。

第一类数据叫做主数据,数据是对客观世界对象的一个记录,当你记录的东西是一个物或人的时候,这些数据就叫做主数据。举例,我们公司员工,我们学校的学生、老师,这些课程,公司的产品、客户都是我们的主数据,这是一类数据,对客观世界对象的记录。

 第二类数据叫做交易数据或者事务型数据。记录的是客观世界存在的事件。比如召开了一次清数的讲座,什么时间、什么地点、有多少人参加、讲座时间是多少,这一次事件的记录,这是一条交易数据的记录。刚才只说的是人、物,现在已经是一个事件了,这是一类数据。对公司来说,一个销售订单、一个客户的通话记录,一次保险客户理赔的记录,这属于交易。一个公司在运营时,要有一些人、物,这些人和物发生了一些事件,主要业务活动就是事件,这些数据就是第二类数据。

 第三类数据叫做统计分析数据。指的是一些在企业内部分析的指标。因为公司在运营,总要统计一些东西,比如我的客户有多少,咱们今天讲座的上座率是多少,来了多少人,这都是一些统计数值型的数据,可以对前面的主数据做统计,有多少客户;可以对交易数据做统计,有多少销售订单,总共销售多少金额。都是描述企业真实运行过程的数据

 第四类数据叫做参考数据。有些数据更细化、标准化分类,有了参考数据这个说法,参考数据通常意义上来说是一些代码值,比如客户等级,有白金卡、金卡、银卡,还有普通客户,这四类客户其实就是我们客户等级,分别有01、02、03、04或ABCD来代表等级,这类就属于参考数据。比如有人打电话,这个电话是本地通话还是漫游,是国内漫游还是国际漫游,这几个类型都属于参考数据,是为了把数据定义取值更加规范。

 第五类数据叫做元数据。给出一个数据2.18,有可能是一个篮球运动员的身高,要加上一个单位是M,这是身高。2.18如果加上一个日期的话,可能就是今天的这个日子。元数据就是为了描述一些数据的,单纯如果给出2.18这个数值的话,大家不知道它是什么含义,这个数据就没法用,必须要把它的元数据描述清楚,才能知道这个数据真正业务含义是什么,才能够去用这个数据。

 那么在国际上数据管理、数据治理领域包括什么内容?

上篇 ▏数据治理为数据资产保驾护航(实录+PPT+视频)

 如图,去年Gartner的企业信息管理领域技术曲线,最高点是元数据管理,今天会谈到的数据治理、数据架构、数据认责、主数据管理,都在这个曲线里面。比较有意思的是,红颜色这个点有大数据、大数据治理以及另外一个技术。红颜色的意思,在这个图里是达到平稳发展之前,大数据这个词可能就过期了,大家不再这么叫了。另一方面也印证了大数据这个领域经过这几年发展之后,可能以后就过时了,变成常态了,大家不再叫大数据了,可能就是数据本身了。数据就是这样的,只不过它刚出来时,大家觉得这些数据量很大,不好处理,所以管它叫大数据,现在大家慢慢不再这样叫了,更多是数据本身。这是一个很有意思的趋势。

 这几个翻译出来也是我们在数据管理、数据治理领域里面比较关注的一些话题。这里面大家可能没看到大数据,这本书应该是2009、2010年在国外出的,当时大数据这个概念还不流行,在今年第二版出来,里面就会有大数据的内容。这本书在国际和国内都是比较受业界认可的,我有很多客户在项目组当中做数据管理工作,都是人手一本。

 DAMA把数据管理分成十个领域:

 数据架构的管理

 数据的开发

 数据的操作

 元数据(数据的描述和含义)

 数据的质量

 数据的安全

 文档和内容管理(非结构化数据的管理)

 数据仓库的管理

 主数据的管理

 数据的治理

 数据管理的知识体系框架,数据治理是其中一部分,我们就要区分一下究竟什么是治理,什么是管理?有的时候大家说的是广义的治理,有的说的是狭义的治理。我们写国标,参与一些标准的编写,有一张图很好地区分了数据治理和数据管理的区别。治理在上,管理在下。管理活动是PDCA的循环,从计划、建设、运营到监督;治理对下面的管理活动进行指导、评估和监督。治理活动更多的是做一些方向性的工作,管理活动是做具体性的活动。

 数据治理和数据管理是有区别的,因为在国内实践的时候,很多时候这两个词是在混用的,不太区分什么叫治理,什么叫管理。但是实际上治理是对管理活动的评估、指导和监督,治理和管理是有区别的。我认为在概念上我们应该更清楚,因为有了清楚的概念,开展工作时才更容易,不会走太多弯路。

 接下来我们主要讨论一下广义的治理,会把数据架构、数据质量、元数据等等内容加进来。

上篇 ▏数据治理为数据资产保驾护航(实录+PPT+视频)
 

 大家看到了DAMA的模型,这些扇形之间有什么样的关系?可以去探讨一下。

 首先看数据架构、数据开发和数据操作之间的关系。在一个企业从没有数据到有数据,或者数据从分散到集中这么一个过程时,这三项工作是它的核心工作,要用数据必须进行数据架构的设计和规划,要做数据的开发,要做数据的操作,这是三项核心工作。有了这三项工作之后,我们就从数据分散到数据集中,就有数据可以用了。这是第一阶段。只完成这个阶段实际上不够,你的数据还没法用,必须要把三个数据特性管好:元数据管理,数据质量管理、数据安全管理。

 再往上,是专项的数据方案,不管是主数据、数据仓库、非结构化数据还是大数据,都要做下面这些工作。无论上面任何一种数据、任何一个平台的解决方案都脱离不开下面的内容。

上篇 ▏数据治理为数据资产保驾护航(实录+PPT+视频)

 数据治理在最上面,去保障所有下面各项工作都是组织到位、人员到位,有一些规范制度,能够协同作战,而不是各自为战。这就是换了一个视角来看DAMA这十个领域之间是什么关系。其实这也很重要,往往公司里面更加重视的是:我要做大数据平台,要去设计大数据平台,要去做开发,要去做操作,也就是红颜色的内容,而忽视了元数据的管理和数据质量的管理、安全的管理,更忽视上面数据的组织、数据的人员、数据的制度怎么设置。

 从数据到数据治理,再到数据治理的领域究竟有哪些内容,我们已经做了一些分享。下面来谈谈数据治理该怎么做?

 

 数据治理,人员和组织应该如何安排?

 在公司里,一个经常发生的场景是公司领导看到一个报表,觉得这个数据不对,就把业务部门叫来,询问数据出处。业务部门说从数据仓库或分析报表里出来的,IT部门说确实是从IT部门负责系统建设的报表里面出来的,领导就让IT部门查这个数据的问题是什么,IT部门就把这个活接下来了。久而久之,数据的问题其实就被认为是IT部门的问题了,业务部门基本参与的就比较少了。实际上只靠IT部门很难做数据管理,因为数据的定义和数据的业务规则,指标的名称、指标的统计口径都是业务部门最清楚的,数据的录入最开始是由一线业务人员录入的,比如电网营业厅的人员,银行柜台的人员,这些数据都是他们录入的,并不是IT部门人员录入的,数据的使用也是业务人员在使用,基于数据进行公司的考核也是业务人员在做考核,IT部门没有权利去考核销售、考核市场或考核客服。从数据的定义到生成到使用到考核都不是IT人员的责任,但IT人员却要进行数据问题的解决,对他来说责任和权利其实是不匹配的,很难做好这项工作。我们比较强调数据治理这个工作应该是由业务人员和IT人员联合开展,而不仅仅是靠IT人员。

上篇 ▏数据治理为数据资产保驾护航(实录+PPT+视频)

 业务人员想参与的话,组织上面应该如何配合?这个架构也是DAMA书里面比较经典的数据治理的组织架构。蓝色部分是业务人员,绿色是IT人员,中间是管理协调的职能。绿色指的是数据管理的服务组织,更多是IT人员,比如做数据集成,做数据建模、报表开发人员(工程师)。领导安排他们去解决数据管理问题,解决这些数据质量问题,就不能只做数据专家,不能只做技术专家,就要承担一部分管理协调的职能,所以中间有了管理办公室。办公室要去找业务人员沟通,说有什么样的问题,去做问题的分析,召集开会,发布一些制度等等。业务人员理想情况下应该分成不同级别都参与到企业数据治理工作里。

 最基层的,比如公司都有市场部门、销售部门,市场部门应该有人去负责把市场这个领域生成什么数据。比如开展市场活动,收集了一些客户的名片信息,这些信息应该录入或扫描到公司的CRM系统里,这些数据应该是及时的、准确的,和名片上是一致的,有人可能还要跟进这些客户。市场部应该有人把他自己的数据管理好,销售、财务都一样,最基层都应该有业务的数据管理专员。

 当涉及到某些数据,比如财务的核算数据和财务的预算数据不一致时,就需要有一些部门级的治理委员会进行一些数据的协调,这两个数据定义不一样,究竟应该以谁为准,或者中间有哪个统一的标准。刚才举例,三个部门都有净资产收益率指标时,究竟以哪个部门指标为准?需要有一些协调机制。

 再往上,企业级应该有一个企业级数据治理协调委员会,在公司层面进行数据治理问题的协调和推动,就是立体的一个数据治理的组织。

 数据管理专员 Date Steward,就是说这个数据不是某一个人,不是某一个部门的,但是我们需要找一些人帮助这个企业把这个数据代管好,就像每个人可能都会到银行理财,这个钱是我们自己的,但是银行的基金经理会帮你把这个钱做好管理,保障它的安全,而且还保障它的增值。数据也是一样的,在企业内部需要找数据的管家,数据管家要从业务部门来,这些数据管家都做什么?首先是对数据名称的定义,比如说航空公司的金卡、银卡究竟分几级,这是业务部门定的,不是IT部门去定;某一个业务部门有什么样的数据需求,要用什么报表,是不是要从微博上去爬这个数据,这些应该是业务部门来提的;出现数据问题时,他们要去解决,数据保留多长时间,他们应该也提得出来,这些数据的访问权限给谁、不给谁,哪些数据可以给谁去用,数据安全这些规则其实也应该是由数据管家、数据业务部门来提出,不仅仅是IT部门的职责。

 国内一个典型的数据治理的组织,在公司最高层,有的时候会建议成立一个数据治理委员会、数据治理领导小组,但是很多时候公司觉得领导小组太多了,我们就把数据治理的职责交给信息化领导小组承担。信息化领导小组一般会由公司一把手或者主管信息化常务副总负责,级别都是很高的,这就是决策层。

 中间执行层,比如IT部门和一个牵头的业务部门联合负责,不仅仅是IT部门负责数据治理的工作。哪些业务部门比较合适?比如财务部门,各个业务线上的都要统计财务收益,还有一些部门负责企业的经营绩效、统计分析的,对数据是高度依赖的。这些对数据高度依赖的部门也适合作为牵头部门。有的时候更往前一点,会成立一个专门的数据治理部,其他业务部门也应该对自己产生的数据负责,比如财务产生财务的数据,销售产生销售的数据,物资产生采购的数据,其他部门都负责自己业务领域的数据,这两个部门统筹推动数据治理工作。国内还有集团和子公司一说,可能区域性子公司、专业性子公司,下属单位也应该有自己的数据治理团队,也是IT和业务部门联合负责的。

 现在由谁来做数据治理讲清楚了,组织机构讲清楚了,更细致的,每一部分专员具体的职责,怎么选择这些专员,这是更细的话题了。也就是数据治理具体的方法。

 【相关链接

 下篇 ▏数据治理为数据资产保驾护航(实录+PPT+视频)

 昨天的发文中,我们讲了由谁来做数据治理和组织机构管理。今天我们讲更细致的,每一部分专员具体的职责,怎么选择这些专员。这是更细的话题,也就是数据治理具体的方法。

 究竟用什么样的方式开展数据治理工作?这里强调数据的生命周期。数据生命周期在市面上有三四种不同的理解,这里提两种。

 
 

责任编辑:陈近梅

分享:
2022全数会
贵州

贵州大数据产业政策

贵州大数据产业动态

贵州大数据企业

更多
企业
更多