立言论坛|立言首都金融论坛·第19期:“新法规背景下的银行业数据治理与应用”闭门研讨会成功举办
11月26日,在国家金融与发展实验室金融科技研究中心、中国银行业协会信息科技专委会的指导下,北京立言金融与发展研究院和金融科技50人论坛联合主办的“新法规背景下的银行业数据治理与应用”闭门研讨会在京举办。这是北京立言金融与发展研究院成立后举办的第十九期会议。
《国民经济和社会发展第十四个五年规划和2035年远景目标纲要》特别提出,要打造数字经济新优势,加快金融机构数字化转型。9月22日,中国银保监会发布了新版《商业银行监管评级办法》,备受行业关注的“数据治理”出现在九项评级要素之中。如何更好地实施和规范数据治理,促进数字化转型和行业高质量发展,是中国银行业面临的机遇与挑战。基于此,本次研讨会定向邀请行业协会、资深专家与业内人士,共同围绕“新法规背景下的银行业数据治理与应用”这一主题进行了分享和交流。
本次交流重点关注和分享三个议题。一是数据治理方面实践和经验:关于数据治理的观念、方法论、实施路径、关键点、难点、价值体现、技术工具、人才培养、制度建设等。二是在新法律环境趋势下的数据安全与应用:隐私保护、数据伦理、数字确权、合规应用等。三是数据资产和价值发现:数据资产、数据价值、价值发现、融合发展等。
首先是主办方致辞环节,由北京立言金融与发展研究院院长、国家金融与发展实验室副主任杨涛,中国银行业协会首席信息官高峰做致辞发言。中国银行业协会系统服务部主任赵成刚主持会议。
杨 涛
北京立言金融与发展研究院院长
国家金融与发展实验室副主任
杨涛表示, 2020年中央出台相关文件,将数据要素作为生产要素的一个重要组成部分,而数据治理是数据要素发挥重要作用的前提条件。杨涛院长主要从三方面分享自己对数据治理的相关看法。
一是数据治理是国家治理的重要组成部分。以数字化为代表的新经济成为经济发展中新的重要动力,解决原有经济增长内在动力弱化局面,需要从数据与产业融合方面挖掘数据,从生产到交换、分配、消费这一过程当中完善数据治理机制。因此,讨论数据治理是国家治理的一个重要组成部分,归根结底是希望以数据治理作为抓手来解决数据在经济发展当中作用仍显不足的状况。与此同时,从社会角度、公共治理角度来讲,数据治理也是一个重要组成部分。
二是数据治理是金融数字化转型的一个重要起点。从互联网金融到金融科技,再到数字金融,背后归根结底都着眼两个重大层面。一方面,以持牌金融机构体系数字化改造与金融科技创新作为重要抓手,研究新技术和数字化究竟为整个金融体系带来什么样的冲击和影响;另一方面,在金融科技和数字金融发展变革过程中确实出现一些风险,但是风险整治的同时不能一刀切,不能在数字化转型和发展大势上走回头路。要实现以上共识,无论从行业角度还是机构角度都离不开一些重要的核心要素,而数据治理正是重中之重。金融业要进行数字化改造,更好地服务于其他业态,自身数字化能力的提升是一个重要前提,但以中小金融机构为代表的一些机构距离真正的内在数字化相差甚远。因此讨论金融科技和数字化改造之前,需要将数据治理作为一个重要起点。
三是数据治理最终要与数据应用落地有效结合。谈“治理”二字天然涌现出与安全、合规、监管的有效结合。但更为重要的一面是,数据治理的最终目的是服务于基于金融科技的场景落地。银行业只有进一步完善数据治理之后,未来才有可能进一步推动面向C端的业务创新、面向B端的场景金融以及产业链金融创新。归根结底,数据治理不仅仅是保守地服务于监管和安全,更为重要的是发挥数据在未来金融创新当中的价值,更好地服务于C端金融变革以及场景金融的创新,最终支撑经济社会的有效发展,实现经济高质量增长。
高 峰
中国银行业协会首席信息官
高峰提出,如今,金融科技发展遇到了一个主要的问题,就是不可逾越的鸿沟,即数据治理的问题。数据治理是数字化转型的基石,也是实现弥合数据鸿沟最好的方法。高峰首席信息官主要从四方面分享了对数据治理工作重要性的认识。
一是数字中国建设,必须进行数字化转型,尽管数字化转型过程中遇到了许多瓶颈。过去的两年颁布了诸多法律法规,社会治理生态有利于数字化转型。除了国家有关部门驱动数据服务能力,银行本身也更加重视数据治理。银行自身公司治理需要数据治理支撑,包括信息披露、公司管理、财务管理、绩效管理、风险管理等,同时数据挖掘与分析也离不开数据治理。
二是监管部门监管风险评级将数据治理作为重要的一项内容,银保监会从2018年开始,相继出台系列文件,包括专项治理、银行处罚、监管评级新规,都在持续要求完善数据治理工作。监管部门更侧重于通过数据监管方面发挥积极作用,保证银行业高质量发展。
三是各银行已为数据要素发挥数据资产价值进行了诸多有益工作。光大银行、浦发银行相继出台相关发展报告或白皮书,各家银行已充分认识到,未来数据将作为一种资产价值,可以进行流动和交易的发展趋势。
四是中国银行业协会将围绕数据治理积极有所作为。未来协会将围绕数据治理的算法、数据、场景核心三要素制定有关的标准。同时,下一步借力北京立言研究院和CFT50,在业内发布相关研究报告和白皮书,并在数据治理人才培养方面与DAMA合作,以期对整个中国银行业数字化转型有一个积极的推动作用。
第二部分是主旨演讲环节,邀请到了中国建设银行数据管理部副总经理刘贤荣,光大银行信息科技部副总经理、数据服务中心总经理王磊,龙盈智达(北京)科技有限公司首席数据科学家王彦博,对外经贸大学数字经济与法律创新研究中心主任许可,DAMA中国(国际数据管理协会中国)理事郑保卫等专家对银行业数据治理与应用问题进行深入的思考。
刘贤荣
中国建设银行数据管理部副总经理
刘贤荣表示,2021年《数据安全法》、《个人信息保护法》的出台为数据治理赋予了新的含义,“新法规背景下的银行业数据治理与应用”这一主题也为数据治理赋予了更多新的含义。刘贤荣主要从三方面分享相关观点。
一是数据要素在整个银行业中的作用越来越接近于真正数据资产价值。数据要素最大的不同在于:生产过程中不是损失的过程而是增值过程。许多银行业务最大的转变在于数据作为关键要素驱动产品创新和业务的发展,有以下两大典型例子。一是无论是党中央、国务院还是监管机构都希望银行探索一种普惠金融模式,其背后逻辑就是数据模型。因此近年来银行数据资源中发现了很多创新的新数据,比如涉农数据、政务数据、数字化商务交易数据等。这些数据驱动下,很多银行业务发展和数据真正融合在一起。二是银行授信逻辑基本上都是数据驱动的模型化数据。数据成为整个银行业务中的关键生产要素,甚至成为很多银行的核心关注资产。因此数据作为关键要素正在全方位进入到银行的产品创新,数字化转型和数据成为要素正成为银行业共同接受的观点,而且成为业务上的现实。
二是数据治理过程中,以往银行数据治理主要驱动力有两个方面,一方面是监管,许多监管政策中规定每个业务流程要采集什么数据;近年来出现的第二个驱动力是来自于大数据应用中对数据的驱动,模型风险和数据风险是紧密结合在一起的,模型风险治理过程中面临的第一个挑战就是数据风险。近年来,几乎所有商业银行都面临授信数据和贷信数据不一样的挑战。近两年政务数据尤其是税务数据,几乎所有商业银行税务贷不良率都在攀升。第一个原因是从数据本身要素收集角度来看,贷后收集力度远远不如贷前;第二个原因是数据供应方在达到目的之后,直观的驱动力变弱。数据风险的治理包括数据安全、数据质量,一些新型的风险在整个数据治理过程中会产生越来越大的挑战,这种挑战甚至会出现一些新型的欺诈。因此未来以数据安全为代表的数据风险,在整个数据治理环节中会变得非常关键。
三是当前整个企业界数据治理。银行等金融机构对于未来数据交易、数据共享和数据开放环节,抱有很多期望,但是数据确权问题可能需要政府政策方面的驱动力。无论是数据交易还是数据共享角度来讲,如果权利不清晰,后续所有事情都难以解决,但整个数据治理中的确权问题面临几个巨大的挑战。一是数据归谁所有不太明确;二是企业内部数据治理不同利益所有者享有权利方面面临较大挑战,数据治理内部面临着几个不同的利益所有者互相博弈的问题。
在当前新的政策环境下,讨论这一问题需要赋予很多新的含义,无论是对整个数据治理的理论,还是对未来的实践都是一些新的挑战。从业界、数据应用和数据治理角度以及数据研究智库角度来讲,对未来整个国家数据治理体系和整个行业数据治理体系都会是一些比较新的观察点。
王 磊
光大银行信息科技部副总经理、数据服务中心总经理
王磊主要就光大银行数据资产管理创新与实践进行分享。
在数据要素市场化这一外部驱动、数字化转型这一内部需求、数据资产估值这一专项深化下,光大银行积极拥抱数据资产时代。2005年开始,光大银行开始进行局部数据管理;2012年从统筹角度探讨数据治理问题;2019年开始从数据资产盘点、数据要素市场、数据价值挖掘进行数据资产运营,数据由资源变为资产,数据管理由关注内容到关注价值。数据资产的时代已经到来,商业银行亟需数字化转型,这对包括科技部门、数据部门等都提出了更高的要求,唯有创新才是唯一出路。
首先,数据只有用起来才有价值,数据资产管理从“管好数”转变为“用好数”。光大银行设立明确运营管理目标:全面、权威、智能、敏捷、生态,资产内容方面其实做加法,不断丰富数据资产内容,使它得到、可用;平台工艺方面做减法,强调工具,降低数据资产使用门槛;运营机制方面做乘法,实现全流程管理、资产估值,提高数据资产使用效率;同时强调效能,打造一个可以快速看数、找数、用数,最后用数据创造价值的生态。光大银行从业务、科技、数据三点出发,更好的塑造好这一生态,更好的发挥出数据的价值和目标。光大银行以运营思路开展数据资产管理,有两大抓手,一是数据资产运营方面,包括内容全面、资产权威、服务智能、开发敏捷;二是数据资产估值方面,包括明确数据资产范围、计量出估值方法、使价值可以量化、最后可以估算出整个数据资产真正的价值,以上两点也是响应银行业务发展的需求。
光大银行数据服务中心打造新一代智能化数据资产管理平台,Web端魔数实现资产登记、管理等功能评论、添加标签等交互;客户端魔豆实现模型设计、智能落标;手机端魔数实现便捷检索、智能互动。内容全面覆盖,打造数据资产百科全书,全行数据资产分成三个种类,基础类、加工类、管理类数据资产,有助于未来数据资产的估值。从全行角度打造数据资产的权威性,事前智能落标、事后智能盘点双管齐下。将管理要求嵌入工具和流程,实现管理、执行合二为一。智能化赋能,降低数据使用门槛,普及用数意识。
其次,光大银行数据服务中心用货币度量数据资产价值,让数据价值可量化、被看见。创新性开展数据资产价值量化计算研究与实践,行业首发《商业银行数据资产估值白皮书》,首次货币量化计算出光大银行数据资产价值超千亿元,首次完成全行1.31亿个人客户数据资产价值逆向分摊计算,并在APP上对客发布。从数据资产价值和数据资产管理的直接关系角度看,通过成本法看出整个数据资产的规模和数据资产价值是正相关的;收益法看出与调用次数、覆盖范围和性能优良程度呈现“正相关”关系;最后数据质量影响各类型数据资产的价值增长曲线。
最后王磊进行展望。确权是政府行为,交易是市场行为,估值是在整个要素市场化过程中可以探索、尝试的,相信在确权和交易的支撑下,随着合理的公允价值评估成长,最后可以达到共同繁荣数据交易市场。
王彦博
龙盈智达(北京)科技有限公司首席数据科学家
王彦博主要围绕探索面向智能应用的数据模糊治理新思路进行相关分享。
中国的“数据安全与隐私保护立法时代”正在开启。《中华人民共和国国家安全法》于2015年7月1日起施行;《中华人民共和国网络安全法》于2017年6月1日起施行;《中华人民共和国数据安全法》于今年9月1日起施行;《中华人民共和国个人信息保护法》于今年11月1日起施行;这四部法律是以国家总体安全观为指引的一个有机的法律体系。随着今年《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》的出台,标志着中国的“数据安全与隐私保护立法时代”的开启。
在当前时代背景下,发展“隐私计算”恰逢其时。隐私计算广义上指面向隐私与数据保护的计算系统与技术,涵盖数据的生产、存储、计算、应用等信息流程全过程,是使敏感数据、隐私信息不被泄露、不可推导、“数据可用、不可见”的现代信息技术统称。在隐私计算范畴中,主要包含联邦学习、多方安全计算等新兴IT技术。
联邦学习具有“数据可用、不可见、不可得”的特性。联邦学习面向机器学习、数据挖掘类任务目标,针对场景具有多参与方且各方拥有各自数据集的不同情形,形成了三种模式:一是横向联邦学习 -- 适用于各参与方之间数据特征重叠较多、数据样本重叠较少的情形;二是纵向联邦学习-- 适用于各参与方之间数据样本重叠较多、数据特征重叠较少的情形;三是联邦迁移学习 -- 适用于各参与方之间数据特征和数据样本均重叠较少的情形,此时引入迁移学习来解决相关问题。
多方安全计算具有“数据可用、不可见、可得”的特性。多方安全计算运用密码学的一些重要成果,成为网络空间信息安全和隐私数据保护的关键技术,包括同态加密、秘密共享、混淆电路、不经意传输等技术内容。以同态加密和秘密共享为例,进一步介绍:1977年Rivest、Shamir和Adleman共同提出了RSA加密算法,该算法的最大特点是加密和解密所使用的密钥不是同一密钥,称为非对称加密,能够有效提升加密的安全性和应用性;后来人们发现RSA算法可以实现同态加密的乘法运算,即在密文上进行乘法运算后的最终乘积经密钥解密所得到的数据与在明文上直接进行乘法运算的结果相同;1999年Paillier加密系统的提出实现了同态加密的加法运算;直到2009年,同时满足加法和乘法运算的全同态加密方法才由Gentry提出;1979年,Shamir和Blakley分别独立提出了秘密共享的概念,用以解决将秘密信息分成N份无意义的子秘密而当拥有至少K份子秘密时就能恢复秘密信息的问题;秘密共享方案也可用以实现基于Paillier同态加密的多方加法求和应用效果。
具有“数据可用、可见、不可得”特性的是数据虚拟化技术。数据虚拟化技术能够接入跨域多源异构的业务系统数据,形成映射关系,使数据留存于拥有者各方,但通过统一的接口能够让数据使用者见到全局的逻辑视图,支持数据编织、数据监测、数据互操作等新兴数据应用。
面对更加广泛的“数据可用、可见、可得”的情况,数据分类分级是重中之重。数据分类分级对于解决数据信息安全、隐私与数据保护、全面数据治理、数据价值挖掘中的难点问题至关重要。数据分类分级既是数据资源开发与保护、数据管理的基础工作,也是核心技术,更是数据管理标准化、自动化、智能化的前提保障。为解决“有多少数据就要有多少人工”的资源不足问题,可采用机器学习中的半监督学习、自监督学习等新兴技术方法,实现数据类别和级别标注的事半功倍。此外,对于非结构性文本数据的分类分级,可采用自然语言处理相关技术予以实现。
区块链对于多方数据协同计算与学习具有天然优势。通过运用区块链技术,在涉及多方数据协同计算与相关机器学习建模的场景下,可规避对可信第三方的依赖,实现更好的数据信息保护与隐私计算学习。
面向数据智能应用,提出数据模糊治理新思路。无论是“数据可用、不可见、不可得”,或是“数据可用、不可见、可得”,亦或是“数据可用、可见、不可得”,还是“数据可用、可见、可得”,对于数据的应用可简单归纳为“数据层本身的应用”和“智能层的数据应用”两类。比如数据虚拟化、多方安全计算多为数据层的应用,联邦学习主要涉及智能层的应用。当遇到数据集的某个字段存在缺失值的情况,如果面向数据层的应用,则需要启动数据补录等精细化数据治理方案;而如果面向智能层的应用,则可采用以该字段已有数据值的均值或中位数等模糊化数据治理方案对缺失值进行填补,此时对于模糊化数据治理方案的选择取决于能否构建出更加精准的智能模型,而相关评估标准可采用准确率、查全率、查准率、AUC、KS等模型评估指标。
面向数据智能应用的数据特征和数据样本增强。更进一步,如果一个数据集只有一个特征字段,此时基于模糊化数据治理的缺失值填补则可以看作为对数据样本的生成。对于更加泛化的数据样本生成,可以采用GAN(生成对抗网络)、SMOTE(合成少数类过采样技术)等方法,实证结果表明相关技术方法可行。
发现:智能与数据可以分离。将数据样本和特征的生成技术称为数据孪生,基于孪生出的数据可以对智能模型进行提升;而数字孪生则是指将整个业务场景进行全流程仿真模拟构建,其中关键决策点的决策智能化可采用强化学习技术直接获得。由此我们发现,无论是将数据孪生与机器学习相结合,还是将数字孪生与强化学习相结合,智能可以构建在仿真模拟之上,与真实的数据相分离。
数据仿真治理是数据模糊治理的一种形态。面向数据孪生、数字孪生乃至元宇宙等新兴领域,数据仿真治理可以看作为数据模糊治理的一种形态,而数据模糊治理可能是一个值得我们关注和探索的新方向。最后,引用来自Google Research一篇新论文的研究结果来佐证数据与智能的关系,研究表明:更好的机器学习产品可能来自于在不太准确的数据集上进行训练。
许 可
对外经贸大学数字经济与法律创新研究中心主任
许可主要围绕金融数据治理进行相关分享。
首先,数据治理主要有两种不同的含义。狭义的数据治理主要指,建立在数据存储、访问、验证、保护和使用之上的一系列程序、标准、角色和指标,以期通过持续的评估、指导和监督,确保富有成效且高效的数据利用,实现企业价值。广义的数据治理主要指,各种公共或私人的个人和机构管理其共同事务的诸多方式之总和,一种使数据上相互冲突的利益得以调和并采取联合行动的持续过程。广义数据治理包括以下几大的子领域,境内主要包括个人数据保护、企业数据利用、公共数据开放;境外主要包括国家数据安全、数据跨境流动、弥合数据鸿沟。
其次,分享金融个人信息,金融个人信息有着很强的敏感性和公共性。敏感性方面,个人敏感信息是指一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。《个人信息安全规范》规定,银行账号、鉴别信息(口令)、存款信息(包括资金数量、支付收款记录等)、 房产信息、信贷记录、征信信息、交易和消费记录、流水记录等财产信息属于个人敏感信息。公共性方面,个人金融信息是金融信用的基础,金融信用是管理金融风险的关键。金融数据多属于重要数据。金融的信息,尤其是个人金融信息不完全是个人的,很多时候为了银行,为了其他金融机构,甚至为了防控金融整体风险而存在,所以具有很强公共性。
有许多新的举措与个人金融信息共享相关联。如人民银行与市场监管总局签署《数据共享合作备忘录》,旨在加强跨地区、跨部门数据要素有序流转与融合应用,为加快建立现代中央银行制度、推动金融数字化转型、优化营商环境夯实数据基础。人民银行成立新的事业单位金融基础数据中心,负责建设国家级金融基础数据库。
最后,两头强化可以实现个人金融信息保护的平衡发展。一方面,强化静态安全,提升个人金融信息保护的技术标准和内部细则,避免个人信息泄露和未经授权使用。另一方面,强化动态利用,采取模式同意或者是为防控风险所必需的灵活事由,促进数据的流动。
郑保卫
DAMA中国(国际数据管理协会中国)理事
郑保卫就数据管理理论体系及人才培养进行相关分享。
DAMA数据管理知识体系框架经过国内外反复验证,已基本完善,尽管与实际落地之间存在一定差距,但是真正回溯发现仍有很多的指导意义。
首先,DAMA数据管理知识体系主要分为以下几大部分。最底层包括基础设施、组织保障部分,基础设施部分包括数据的存储与操作以及数据集成与互操作,组织保障包括主数据管理工具与角色、数据管理和组织变革管理。中间部分是核心领域,主要包括11个治理核心区域,包括数据架构、数据存储与操作、数据安全、文件和内容管理、参考数据和主数据、元数据管理、数据质量管理。再上一层是数据仓库和商务智能、大数据和数据科学,是整个体系的支撑。外围部分,需要一套完整的理论体系,包括数据安全和数据伦理的问题。数据治理主要支撑数据组织、组织建设和流程制度内容。
其次,DAMA数据管理知识体系落地实施步骤主要分为四阶段。第一阶段,组织建设数据库、数据存储及运营,及支撑数据安全、数据模型设计的基础平台。组织为建设数据应用系统需要通过数据建模设计、数据存储、数据安全、数据集成和交互操作等构建基础环境。第二阶段,数据应用程序投产运行后,便会遇到各种数据质量方面的挑战。但获得更高质量的数据取决于可靠的元数据和一致的数据架构。它们说明了来自不同系统的数据是如何协同工作的。第三阶段,管理数据质量、元数据和数据架构需要严格实施数据治理,为数据管理活动提供体系性支持。数据治理工作中除了数据标准、数据质量、元数据、数据架构等外,还支持战略计划的实施,文档和内容管理、参考数据管理、主数据管理、数据仓库和商务智能等内容,及金字塔中的高级应用。第四阶段,基于良好管理数据成果,支撑各种数据应用和深度挖掘,促进数字化转型,实现数据资产化。整个知识体系中包括每个部分的定义、目标、阶段的输入、活动以及输出、数据的供应者、消费者和参与者、数据支撑、这项工作的评估指标,都有非常完整的体系,有助于落地实施。
另外,数据管理知识体系分为内核与外延部分。内核部分包括规划和设计、规划和维护、应用和强化、生命周期管理、基础工作。外延部分包括数据分类、数据管理成熟度评估、数据价值评估、原则和伦理、战略、文化变革、管控和所有权、政策、人才。
最后,数据治理平台建设方向是,数据管控平台是一个“支撑开发+数据管控+知识提供”的综合平台。DAMA 2021年数据管理和数字化中国市场问卷调查分析发现,数字化转型作为一个主要的数据管理目标已经被强化;数据治理已经被普遍接受和认可;数据质量、数据安全、数据建模被重视;数据治理和数据架构人才市场需求量大;培训及人才培养。首席数据管市场调研核心发现,CDO成为新兴角色,处于起步阶段;业务目标是企业设置CDO的主要驱动因素;缺乏数据文化是企业数据管理的非技术障碍之首;海量、多渠道数据、复杂数据类型是首要技术难题;数据管理投入整体水平偏低,投入超1000万的企业占10%。
郑保卫表示,协会最主要的是推动行业发展,一直开展数据的认证工作。从去年开始推动数据治理工程师、数据治理专家、首席数据官的认证工作,取得了相当的成效,培养了很多人才。