基于区块链技术的数据资产管理机制研究
赵明1, 董大治2
1 海军装备部,北京 100841
2 中国人民解放军91001部队,北京 100841
摘要:使用区块链技术可以保证数据资产管理的高安全性、高隐私性以及可追溯性等。通过对当前基于区块链的数据资产管理机制进行深入研究,总结得出当前管理机制只针对区块链体系框架中的某一层进行应用的结论。为了解决这一问题,提出了基于区块链技术的数据资产管理新模式,对区块链体系中的各个层次进行结合应用。该模式在网络层增加了节点权限控制机制,在共识层实现了共识机制可自定义属性,在数据层通过优化结构和建立索引来提高数据查询效率,在智能合约层实现了数据智能化管理和共享,在交易层实现了可自定义加密算法的信息加密。实验结果表明,相比于传统模式,基于区块链技术的数据资产管理新模式在链上数据查询效率上提升了2.33倍。
关键词:数据资产;数据资源;数据资产管理;区块链技术
论文引用格式:
赵明, 董大治. 基于区块链技术的数据资产管理机制研究[J]. 大数据, 2021, 7(4): 49-60.
ZHAO M, DONG D Z. Study on data asset management mechanism based on blockchain technology[J]. Big Data Research, 2021, 7(4): 49-60.
1 引言
数据资产(data asset)是指由企业拥有或控制的、能为企业带来未来利益的,以物理或者电子的方式记录的数据资源,如文件资料、电子数据等。当前已进入大数据时代,在大数据时代中数据资产的价值不言而喻,因而数据资产管理方式显得尤为重要。
2012年,美国国家科学基金会和美国国立卫生研究院联合启动了“发展大数据科学与工程核心技术”项目,旨在从海量数据集中提娶管理、分析有用信息,这些有用信息的实质就是数据资产。2016年,Google公司凭借其企业特有的优势,收集了大量用户的信息,并利用从这些信息中提取的数据资产来促进企业的收益增长。我国早就意识到数据资产的实际应用价值。在2016年4月的“全球首个数据资产评估模型发布暨中关村数据资产双创平台成立仪式”上,贵州东方世纪科技股份有限公司用数据资产进行“抵押”,拿到了贵阳银行的第一笔“数据贷”放款,令各大企业充分感受到了数据资产的实际价值。2019年6月,在2019大数据产业峰会上发布的《数据资产管理实践白皮书(4.0版)》指出,虽然数据是资产的概念已被行业充分认同,但数据资产管理和应用还处于摸索阶段。针对这一情况,该白皮书介绍了数据资产化管理的关键活动步骤,旨在更好地指导企业开展数据资产管理的相关工作。2020年4月20日,国家发展和改革委员会在新闻发布会上首次明确了“新基建”的范围。新型基础设施是以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系,为数据资产管理方面的研究提供了更具深远意义的新背景。
2 数据资产管理
2.1 数据资产概念溯源
数据资产的概念在1974年由Richard E.Peters首次提出,数据资产包括个人、企业或机构持有的政府债券、公司债券和实物债券等资产。此时数据资产的范围还比较局限。2009年,国际数据管理协会(DAMA International)在《DAMA数据管理知识体系指南》中指出,在信息时代,数据被认为是一项重要的企业资产,每个企业都需要对其进行有效管理。人们此时已逐渐意识到数据资产这一概念的更多内涵。随后在2013年,United States Government US Army指出,数据资产包含任何由数据组成的实体,以及由应用程序提供的读取数据的服务;系统或应用程序输出的文件、数据库、文档或网页等;从数据库返回单个记录的服务和返回特定查询数据的网站。人、系统或应用程序可以创建数据资产。与之前相比,数据资产有了更广泛的定义。2018年,朱扬勇等人提出将信息资产、数字资产、数据资产等统一为数据资产,明确定义数据资产是拥有数据权属、有价值、可计量、可读取的网络空间中的数据资源。数据资产兼有无形资产和有形资产、流动资产和长期资产的特征,是一种新的资产类别。当前这一概念被行业普遍接受。
2.2 数据管理、数据资源管理和数据资产管理
随着大数据时代的到来,数据管理得到了越来越多的重视,当前数据管理可以分为3个层次:数据管理、数据资源管理和数据资产管理。
数据是指对客观事件进行记录并可以鉴别的符号,包括对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。数据管理是指利用计算机技术对数据进行有效且高效的存储、处理和应用。传统的数据管理侧重于数据的物理管理,更关注存储的数据结构以及数据之间的相关联系。这一层次的管理仅仅将数据作为信息的表现形式和载体,对于数据之间相关联系的管理也只是对数据体现的浅层信息进行管理。
国际数据管理协会定义数据管理即数据资源管理,两者的概念类似,但是数据资源管理更侧重于数据应用,而不是像数据管理那样仅仅关注数据的处理过程。数据资源管理在数据管理的基础之上进行,主要用于决策支持。
数据资产管理对数据管理和数据资源管理进行了扩展。数据资产首先应被企业拥有和控制。另外,并非所有数据都是数据资产,只有能够为企业带来未来经济利益的数据资源才能被称为数据资产。数据资产管理将数据资源看作一种特殊的资产形式,以资产管理的标准进行管理。
数据管理、数据资源管理和数据资产管理的关系如图1所示。数据管理仅仅关注存储层,主要关注数据存储以及数据缓存等方面的内容。数据资源管理不再仅仅关注存储层,因为在数据资源管理中已将数据看作一种资源,所以数据资源管理过程中更关注的是应用层,即如何应用数据资源帮助企业进行决策、优化生产流程等。数据资产管理的内涵更加丰富,已经将数据管理转换为资产管理,将数据作为一种特殊资产进行管理,不仅可以利用数据辅助企业或机构进行内部优化,还可以将数据进行交易来创收。因此,数据资产管理除了关注存储层和应用层,还要考虑如何将数据这种特殊资产进行安全管理以及安全共享。当前的一种方式是利用区块链技术赋予数据资产安全共享、防篡改以及可溯源的特性。
图1 数据管理层次
2.3 数据资产化流程
并非所有的数据资源都是数据资产。将数据资源变现的过程称为数据资源资产化。
数据资产化的具体流程如图2所示,企业在生产过程中,会产生与产品相关的数据资源,下一步可通过两种方式将数据资源变现为数据资产。第一种情况是数据本身即可产生价值,例如医疗数据可以帮助医生深入研究病情,从而给医院带来益处,在合理合法的前提下将这种类型的数据资源进行交易是数据资源变现最直接的方式;第二种情况是数据本身不产生价值,但是数据可以为当前的业务赋能,例如各应用程序利用数据挖掘技术对用户行为进行分析从而深入了解用户的需求,通过对这种类型的数据资源进行分析从而优化生产及经营方法,间接提高现有产品的收益,这是数据资源变现的间接方式。
图2 数据资产化流程
3 区块链技术在数据资产管理中的研究
作为一种由多个互不信任的节点共同维护一个全局状态的新型数据库,区块链]具有数据可追溯、数据高安全性以及数据防篡改等优点,可以解决数据安全存储以及多方不互信情况下数据共享的问题,非常适用于数据资产管理。
3.1 应用区块链技术实现数据资产的安全共享
当前区块链主要被应用于数据资产管理的数据安全共享方面。林淼提出了基于区块链技术对共享经济数据资产进行确权的方法。通过让共享平台将不同的服务分散在区块链的不同区块中,赋予共享平台用户处置数据的权利,有效打破了“数据孤岛”,解决了共享数据收集和共享数据应用面临的困境,实现了共享经济有序、稳定发展,为解决共享经济领域的诸多争议提供了解决办法。针对电子政务数据资产缺乏有效流通,阻碍电子政务数据共享及高效使用等问题,陈宏等人提出了一系列加强区块链技术在政务大数据中应用的举措,如运用区块链技术创建政务大数据收集渠道,将区块链技术与政务服务结合以保护数据安全,运用区块链技术推动我国信息系统的进步等。通过将区块链技术与政务大数据结合,可有效地解决电子政务数据间独立不相关及“数据孤岛”的困境,帮助政务服务平台更好地进行信息化转型。
3.2 应用区块链技术实现数据资产的防篡改
关于区块链技术在实现数据资产的防篡改方面的研究也有很多。人力资源和社会保障部门因行业特殊性,系统内留存了数量庞大的数据资产和涉及公民的关键信息。这就要求信息流转的每一环节都不容有失。针对人力资源和社会保障项目中,部分第三方系统开发人员或部门内部工作人员利用职务之便窃娶篡改信息以及数据泄露时无法定位与追责等问题,高永昌等人提出构建人社区块链系统,从而实现人社资产项目数据安全共享与可信流转。通过可控的区块链技术、数字保险箱服务、数字资源管理平台等元素的相互结合,实现社保卡、人事人才信息、劳动合同等可信流转与人社信息资源安全无障碍共享。此外,在跨部门共享海洋数据资产时,应用传统的中心化系统的数据共享方式面临数据易被篡改、违规复制利用等安全性风险。程骏超等人以联盟链为基础,开发了基于区块链的海洋数据共享平台,实现了涉海部门间的数据共享,更好地保障了海洋数据跨部门使用过程中所有者的权益,防止数据被篡改和违规复制,同时降低了因第三方存在造成的数据交易成本,提升了各部门在数据资产价值网络上进行数据共享和开放的动力,进一步形成了良性发展的生态环境。
3.3 应用区块链技术实现数据资产的可溯源
当前也存在一部分研究利用区块链的可追溯特性进行数据资产管理的优化。Tian F设计了一种基于区块链的食品溯源方案,利用射频识别(radio frequency identification,RFID)技术获取食品的相关数据,并将获取到的数据资产存储到区块链中,通过对农产品生产、加工、仓储、配送、销售等环节的真实数据的收集、传输和共享,实现整个农产品供应链数据资产的可追溯,从而有效地保障食品安全。
3.4 应用区块链技术实现数据资产的智能化
数据资产智能化管理是未来区块链技术和数据资产管理结合的一个重点。医疗数据资产的校验、保存和同步一直是一个难点,病人、医生以及研究人员在访问和共享医疗数据资产时受到严格的限制,在这一过程中需要花费大量的资源和时间用于权限审查和数据校验。薛腾飞等人设计了一种基于区块链的医疗数据资产管理模型,利用智能合约实现对医疗数据资产进行安全、可靠的自动化共享与管理。此外,More N等人利用区块链的智能合约实现了一个众包系统,可以有效地实现任务资产的分配,显著提高了工作效率。
3.5 应用区块链技术实现数据资产的隐私保护
对于数据资产隐私保护问题,也可以使用区块链技术进行解决。针对在传统的中心化数据交易系统中,电力数据类的敏感数据因可复制而易被滥用等问题,王柯元等人设计了一种仅限于电网公司、电力生产企业、科研实体间共享或交易电力数据的安全、隐私、互信的平台。该平台采用Hyperledger Fapic,结合基于Golang的微框架Gin,访问底层区块链服务进行系统开发,完成了电力数据资产化及交易系统的后端业务逻辑,用户可方便地进行注册、充值、销户、数据发布、数据转让、取消发布、查询记录等。Zyskind G等人为了实现数据资产隐私保护功能,使用区块链技术和分布式哈希表(distributed hash table,DHT)存储方法,构建了用户数据资产权限管理系统。
4 基于区块链技术的数据资产管理新模式
当前的数据资产管理机制仅仅针对区块链体系框架中的某一层进行应用,没有将区块链体系和数据资产管理完整结合起来,因此,本文通过总结上述机制提出基于区块链的数据资产管理新模式。在基于区块链的数据资产管理新模式中,不是只应用了区块链体系中的某一层或某几层,而是对区块链体系中的网络层、共识层、数据层、智能合约层以及应用层5个层次进行结合,并分别对其进行优化,具体框架如图3所示。在网络层和共识层,通过节点权限分级以及自定义共识机制实现数据安全共享;在数据层,通过优化存储结构和查询方式(如建立有效索引)提高数据查询效率,通过日志数据上链保证数据可溯源,通过使用加密算法加密数据来保证隐私性;在智能合约层,通过使用智能合约程序段实现部分数据自动化管理;在应用层,通过加密交易信息提高用户敏感信息的安全性。
图3 基于区块链的数据资产管理新模式框架
传统区块链的网络层和共识层的作用是保证区块链网络中各个节点通过共识算法维护完整副本的一致性,只有恶意节点的算力达到总算力的一半以上,才有可能修改存储在区块链中的数据,因此区块链具有数据安全共享的特性。在传统区块链中,网络层使用的是点对点(peer to peer,P2P)网络,而在数据资产管理场景中,数据资产拥有者、数据资产被分享者、区块链网络参与者以及区块链管理者在区块链网络中的权限并不相同。区块链管理者负责管理整个区块链,适合作为拥有最高权限的超级节点。而数据资产拥有者、数据资产被分享者仅对自己参与的数据资产有访问权限,可以通过信息加密对访问权限进行控制,因此数据资产拥有者和数据资产被分享者在网络层不需要享受更高的权限。而区块链网络参与者属于在区块链网络中还未进行动作的节点。因此将这3种节点作为参与区块链网络的普通节点即可。在基于区块链的数据资产管理新模式中,在设置P2P网络的同时,在网络层模仿传统数据库对节点进行权限分级,设置超级节点和普通节点两种节点类型。超级节点由官方掌控,负责对区块链网络进行管理,保证数据资产共享的安全与合法。有共享数据资产需求的用户包括数据资产拥有者、数据资产被分享者、区块链网络参与者,他们可以作为普通节点加入网络,普通节点被超级节点管理,普通节点之间是平等的。在传统区块链中,公有链一般采用基于工作量证明或股权证明的共识机制,而私有链或联盟链一般采用实用拜占庭容错(practical Byzantine fault tolerance,PBFT)等共识机制,其实质是保证所有节点的一致性,同时也在一定程度上避免了恶意节点对区块链网络的破坏。这些共识机制虽然保证了节点的一致性,但是很大程度上牺牲了数据上链的效率,不适用于数据资产管理的应用场景。因此,在基于区块链的数据资产管理新模式中的共识层,官方可以在创建区块链平台的初期设计自定义的共识机制,以满足数据资产管理的需求。例如,由于超级节点由区块链管理者掌握,能保证其身份的安全,因此在数据上链过程中由超级节点对上传的数据进行验证,然后将通过验证的数据打包成块,并广播通知各普通节点,各普通节点收到消息后同步至本地的数据副本。
在传统区块链的数据层中,区块之间使用链表结构将所有区块首尾相接,在区块内使用Merkle树结构存储数据,因此区块链具有数据防篡改的特性。另外,数据层中的时间戳字段可保证存储的数据具有时序性,基于不可篡改的数据可以还原、追溯所有历史操作。传统区块链的数据结构单一且查询方式简单,因此链上数据查询效率不高。然而在数据资产管理场景中,数据交互的情况很多,对链上数据查询的效率要求很高,因此在数据资产管理新模式的数据层中,在使用区块链技术保证数据资产防篡改的同时,使用Merkle-B树等优化现有的数据结构,并使用跳表等结构建立有效的查询索引等,从而提高链上数据查询的效率。如图4所示,对于区块链数据结构的优化,可以修改区块内的Merkle树结构,将其与其他平衡树结构进行结合,从而在保证数据难以篡改的同时提高查询效率;在不改变区块链链式结构的情况下,可在链式结构上建立跳表等查询索引,以提高查询效率。除此之外,将难以篡改的日志类型数据上链,可以方便地对所有历史操作进行溯源,从而更方便地对数据资产管理、流通过程中的意外情况进行责任界定。
图4 数据层优化示意图
传统区块链的智能合约层可以保证在没有人为参与的情况下进行可信操作,这些操作可追踪且不可逆转,从而保证了区块链的自动化属性。在数据资产管理新模式中,官方可以通过网络中的超级节点利用由自动化脚本代码组成的智能合约来制定共享交易规则,进行身份审查和数据校验,从而保证数据资产共享交易的合法性。而用户可以通过普通节点利用智能合约进行数据资产自动化管理,也可以利用智能合约实现与其他用户的自动化数据资产共享。在传统区块链中,智能合约部署方式被作为一种特殊的交易上链。与之类似,在基于区块链的数据资产管理新模式中,超级节点可以将其发布的智能合约打包成区块后上传至区块链上进行部署,而普通节点的合约需要经过超级节点的验证后才能上链部署。
在传统区块链的应用层中,可以通过非对称加密算法对交易进行加密,因此交易具有隐私性高的特性。在数据资产管理场景中,参与数据交互的节点需要对其交易过程中的敏感信息进行保护,而数据拥有者需要对其拥有的数据资产进行保护。因此,在基于区块链的数据资产管理新模式中,不仅要支持交易中的敏感信息加密,同时也需要支持数据资产分享过程中的数据加密。对于交易中的敏感信息,直接使用加密算法进行加密即可,只有加密节点可以对自己参与的交易信息进行访问。对于被分享的数据资产,需要数据拥有者使用与数据资产被分享者相关的公钥对其加密,并分享给数据资产被分享者,数据资产被分享者使用私钥进行解密,然后才能访问数据资产的内容。另外,在基于区块链的数据资产管理新模式中,支持普通节点使用自己的加密算法管理数据资产,在一定程度上优化了传统区块链的隐私保护。
基于区块链的数据资产管理新模式通过节点权限控制和共识机制自定义来满足数据资产管理模式下的数据安全共享需求,通过优化区块结构和建立索引来保证数据资产管理中区块链上数据的查询效率,通过日志数据上链来满足数据资产管理中数据可溯源的需求,通过支持编写智能合约来满足数据资产管理中部分功能自动化管理的需求,通过数据及交易信息可加密且可自定义加密的机制来满足数据资产管理中敏感数据保护的需求。
基于区块链的数据资产管理新模式与传统的公有链应用场景不同,这是因为数据资产通常由企业或机构拥有,只有数据资产拥有者和数据资产被分享者可以参与管理,所有节点的权限不同,而且对数据隐私性和安全性的要求更高。在此模式下将节点进行分级可以达到控制管理权限的目的。该模式也不适合采用公有链使用的基于工作量证明机制,可以根据管理场景的不同,采用自定义的共识机制。另外,基于区块链的数据资产管理与基于区块链的医疗数据管理以及金融数据管理不同。在医疗数据管理和金融数据管理中,部分关键数据上链即可,因此可以使用链上链下的存储结构,链上存储关键数据,链下使用数据库存储其他数据。然而,数据资产是从数据中提取出的具有价值的部分,所有数据资产都应该作为关键数据上链,为了保证链上数据查询的效率,优化存储结构和查询方式非常必要。
5 实验及分析
实验的硬件环境为2.6 GHz Intel Core i7处理器,内存为16 GB。实验使用Python语言构建数据资产管理新模式的区块链平台。通过多线程的方式,生成1个超级节点,并分别生成2、4、6、8个普通节点,节点与节点之间可通信交互。
首先,本实验使用自行定义的加密算法管理数据资产,即使用高级加密标准(advanced encryption standard,AES)与RSA混合加密的方法对节点间交互的数据资产进行加密。其中AES算法的加密速度快,负责加密传输文件的主体部分,提高传输效率。RSA算法负责加密AES密钥,提高传输安全性。当节点间进行数据资产交互时,首先,数据发起方通过AES算法创建AES密钥,将交互数据加密,并生成交互数据加密文件。然后,数据接收方通过RSA算法创建RSA密钥,即RSA公钥与RSA私钥,并全网广播RSA公钥。数据发起方接收到RSA公钥后,使用RSA公钥对AES密钥进行加密。加密完成后,数据发起方向数据接收方传输交互数据加密文件与AES密钥加密文件。最后,数据接收方通过自身保留的RSA私钥解密AES密钥,通过AES密钥解密交互数据加密文件,获得原始的交互数据。通过这种方法,有效降低了网络中数据泄露的风险,同时也提高了数据传输效率。
其次,实验使用自定义的共识机制。共识机制内容为普通节点可将数据上传到区块链网络中,超级节点收集区块链网络中分散的上传数据,当收集到一定数量的上传数据后,对数据进行可信性验证,确保数据真实有效与数据源头安全。之后超级节点将通过验证的数据打包生成区块,并全网广播区块信息,普通节点收集到区块后,将区块复制到节点中的区块链副本上,完成数据更新。实验具体为:分别通过2、4、6、8个普通节点,在一定时间内向区块链网络上传数据,其中每个普通节点上传的数据量相同。将普通节点上传命令发出记为上传开始,将生成区块被添加到各个普通节点的区块链副本上记为上传结束,上传数据至区块链平台的时间如图5所示。
由图5可以得出,随着节点数的恒定增加,对应增长的数据上传时间较稳定且符合预期,整体呈线性分布,这证明本文提出的基于区块链技术的数据资产管理新模式具有稳定性。通过多个节点的数据上传时间可以发现,基于区块链技术的数据资产管理新模式的数据上传时间较短,证明了本模式具有高效性。
图5 上传数据至区块链平台的时间
最后,本文设计了一种全新的优化查询算法,使用Merkle-B树优化现有的数据结构,同时使用跳表结构建立有效的查询索引,以提高区块链上数据查询的效率。为了对新方法的查询性能进行评估,设计了对比实验。实验中包含4种方法:第一种方法,使用传统的区块链方法进行查询(origin方法);第二种方法,使用通过Merkle-B树优化现有数据结构的方法进行查询(Merkle-B tree方法);第三种方法,使用跳表结构的方法进行查询(skip list方法);第四种方法,使用本文提出的Merkle-B树与跳表结构结合的优化查询算法进行查询(mix方法)。通过这4种方法,分别查询不同容量的数据资产信息,并记录查询时间。查询时间结果如图6所示。
图6 不同方法的 数据查询时间对比
通过对比4种方法的查询时间可以发现,与origin方法相比,3种使用优化结构的方法(Merkle-B tree方法、skip list方法、mix方法)的查询速度都有所提高。其中, mix方法的查询效率最高,skip list方法的效率次之,Merkle-B tree方法的效率再次。原因是Merkle-B tree方法虽然对区块数据结构进行了优化,但区块内部的数据量较小,因此速度仅略有提升,只提升了17%;skip list方法在区块间构建了索引,查询速度大幅度提升,提升了1.24倍;而mix方法结合了Merkle-B tree方法和skip list方法的优点,因此数据查询速度最快,提升了2.33倍。
6 结束语
在当前的大数据时代背景下,数据资产管理显得尤为重要,而新兴的区块链技术可被应用于数据资产管理,以保证数据资产的高安全性、高隐私性以及可追溯性等。当前已存在很多基于区块链技术的数据资产管理机制,但都是针对区块链体系框架中的某一层进行应用的。本文通过对这些机制进行总结及研究,提出了基于区块链的数据资产管理新模式,对区块链体系中的各个层次进行结合应用,并分别在网络层、共识层、数据层、智能合约层及交易层进行了优化。实验结果表明,相比传统模式,基于区块链技术的数据资产管理新模式在链上数据查询效率上提升了2.33倍。
作者简介
赵明(1979-),男,海军装备部工程师,主要研究方向为数据管理。
董大治(1977-),男,中国人民解放军91001部队高级工程师,主要研究方向为信息通信。
联系我们:
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年、2019年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。
关注《大数据》期刊微信公众号,获取更多内容