梅宏院士最新演讲:数据税

梅宏院士最新演讲:数据税
2023年07月16日 22:17 经济学家圈

梅宏院士在中国数字经济发展

和治理学术年会(2023)上的主旨演讲:

数字经济基础设施——探索与实践

7月4日,中国数字经济发展和治理学术年会(2023)在清华大学顺利举办。本次大会以“数据要素治理,数据价值释放,数字经济创新”为主题,邀请了国内外40余位数字经济领域著名专家以及在数字产业实践中取得优异成果的机构代表进行主旨演讲和交流。来自清华大学、北京大学、中国人民大学、中国科学院大学、中国社会科学院大学、南开大学、上海交通大学、复旦大学、中山大学、南京大学等高校和数字经济相关科研机构及企业的代表共400余人出席线下会议,会议通过多个平台进行同步直播,当天信息浏览量超过11万人次。

中国科学院院士、中国计算机学会理事长、北京大学教授梅宏院士以《数字经济基础设施——探索与实践》为题进行了主旨演讲,本文根据梅宏院士在年会上的发言实录整理,内容未经本人确认,以下为全文:

谢谢陈老师!也谢谢江老师的邀请让我有这个机会在年会上和大家分享我的一些认识。今天我主要从技术的角度来谈一谈“数字经济基础设施——探索与实践”。虽然叫数字经济基础设施,但我觉得更是数字时代经济社会的基础设施。

首先,基础设施是指为社会生产和居民生活提供公共服务的物质工程设施,用以保证国家或地区社会经济活动正常进行的公共服务系统。这就是社会经济赖以生存的一般条件,常见的交通、邮电、供水、供电等等都属于基础设施的范围。数字时代的基础设施有什么特点?信息基础设施,例如传统的电信,我理解在现代是互联网及其延伸,包括互联网到移动互联网到物联网,以及基于网络的公共服务。在互联网平台上,比如说web、数据中心、云计算平台等等,这些都是我们的基础设施,这是一个部分。

其次,是传统物理基础设施的数字化,需要软件定义。我们国家在推新基建,这是2018年中共中央经济工作会议提出来的,2020年4月份发改委明确了新基建的范围,5月份“两会”明确了新基建的建设。2020年底发改委推动的一体化数据中心,毫无疑问是基础设施的范围。我想用一位名人的话,C++的发明人、美国工程院院士Bjarne Stroustrup说人类文明运行在软件之上,在所有的物理机器之上就靠软件平台。这是我对基础设施的理解。

数字经济发展有很多的挑战,在座的各位专家都有自己的视角。我去年在《求是》上发表了一篇文章——《大数据与数字经济》,这里借用里面提的三个方面做一个导引:一是数据要素市场培育,二是治理体系,三是核心动能和基础设施,也就是信息技术在数字经济时代有什么挑战。我想从这里切入我今天想讲的主题。

毫无疑问的一点是,数字经济发展的第一推动力就是互联网的商用及其快速发展,上世纪90年代中期互联网开始大规模的商用,事实上数字经济digital economy这个词也是那个时候被造出来的,互联网极大地拓展了人类沟通和协作的时空,成为人类经济社会活动的基础设施。数字经济的概念早期就是源于互联网的商用,但主要还是指互联网发展带来的模式变化,指电子商务、电子交易等等。当然,现在数字经济的概念比这个扩展了很多。

数据的汇聚、碰撞和融合是数据与价值释放的前提,共享数据流通交易是数字经济发展的前提。毫无疑问,互联网已经构成了数据流通汇聚的平台,但其技术能力和效率还不够。互联网怎么去支撑数据连接和共享,业界已经做了很多努力。大家知道互联网TCP/IP发明人罗伯特·卡恩和温顿·瑟夫,两人都是图灵奖的获得者。在他们之后,万维网的发明人伯纳斯·李也获得了图灵奖,其最重要的贡献就是Web,使人在网页共享成为可能。而罗伯特·卡恩在TCP/IP以后主要在推数字对象架构DOA,我们把数字对象DO的网络,称之为数联网。伯纳斯·李在万维网之后在推语义网,再到现在他主推的是以个人数据为考量的SoLiD。这是目前看到的两条路线。

SoLiD的核心思想是解决应用和数据解耦的问题,要解决个人数据的所有权问题。通过SoLiD POD存储从应用中分离的用户数据并给予WebID来对数据进行访问控制,不同的应用就面向不同数据的视图。大家现在谈得比较多的Web3.0,当然伯纳斯·李不一定认同,但SoLiD的目标也是围绕个人去有效汇聚个人的数据,而不是这些数据散落在平台上。

数字对象架构是罗伯特·卡恩在给图书馆做项目的时候提出来的,通过一个基本的数字对象模型定义了数据的三个要素:标识、元数据、数据源。通过三个核心系统和两个基本协议,定义了数字对象之间的互通和互操作。三个核心系统分别是:数字对象标识解析(类似互联网的解析系统DNS),数字对象注册系统,还有数字对象仓库系统。两个基础的协议,一个是DOIP、一个是IRP。我们认为这条技术路线可能对现在的数据的管理和治理都能带来很大的好处。

互联网上的数据是碎片化的,通过数字对象模型封装后,每一个数字对象都会有唯一标识,唯一地址,可以根据注册标识唯一在网上找到它。这样就形成了一个基于数字对象联网的一体化数据空间。

我们为什么选择了数联网或者是DOA这套体系?Web早期就解决了网页的互联问题,现在虽然也往SoLiD发展,但所有的数据是依附于主机的,只有机器有地址,数据本身是跟着机器走的。Web通过浏览器、HTTP等方式,所依赖的是DNS寻址系统,而数联网是把每一个数据唯一标识,这个数据的地址和机器是解耦的,不受机器地址的约束成为一个独立的地址,数据地址从机器地址到了独立地址。Web中元数据是被动提取的,现在我们要主动做好数据对象,要主动发布数据。还有关系,过去是基于HTML体系,现在我们用的是语用链接,从媒体网页走向数据和数据对象。

在这个基础上进一步,数字对象的联网就构成了一个数据的空间,联网下面是各种数据资源,再下面是基础设施,之后就有一个数字对象联网构成的数联网,在数联网和应用结合就可以形成不同的域,不同的应用面对不同的空间。所谓的数据空间就是网络空间从过去“以计算为中心”向“以数据为中心”转型的一种新形态,是数据实体、数据活动的集合及其相互作用所发生的虚拟空间。

可以看到,这方面已经有了很多工作。现在已经有一个DOA全球基金会DONA,已经形成了数联网标识解析的全球基础设施,这是在互联网运营解析中的第二套全球基础设施。这个基金会是2014年成立的,现在全球有13个对等的解析的根节点,覆盖了12个国家。

上世纪90年代中期,罗布特·卡恩在美国自然基金会数字图书馆先导计划一期工程中提出DOI体系,建立了数据表示全球网络Handle系统。现在全球大概有2.57亿篇文献,每一篇文献都有一个DOI标识。有了标识,再加上一个URL,我们就可以找到它,这是早期做的。

第二个是中国信通院在主导的工业互联网的标识解析体系,以国家级的顶级节点为中枢,上连国际根节点,下连二级节点和企业节点。从18年开始建设,累积标识注册量突破了3000亿,日解析量1.2亿次,服务企业大概20多万家,全国几乎所有的省都在积极地争取二级节点或者是主节点。

我们在研究过程中进一步和罗伯特·卡恩团队合作,做了数字对象的封装,建立了更为通用的模板,大家可以在模板上进一步定制。数据对象可以是静态文件、接口或数据库,同样包含标识、属性、元素,里面会涉及到数据源的类型,可以是数据库,可以是文件,也可以是具体的API等等。有一些典型的应用案例:例如国家工业大数据登记,这是中国工业互联网研究院在主导的,就是想为数据确权,形成的一个全国的统一技术平台,其本质是一个确权登记平台,同时也在全国做体系化的布局,并推进工业数据登记确权国家标准的立项。

数联网的技术栈是什么?我们与罗伯特·卡恩团队紧密结合,在原有协议基础上增加了一些工作和具体实现。我们的实现都是开源的,标准通过DONA标准工作组向全世界公开。具体工作包括底层的网络和协议,主导了DOIP协议的相关标准。再向上有北京数睿的两套实现方式,一个是关于DOIP协议的,还有IRP协议的。再上面有地址系统,语用系统、存证系统,存证系统是一个区块链的平台,还有它的仓库系统、注册系统、标识系统以及面向行业做的一些应用,这就是数联网的技术栈。

我也想给大家介绍一下北大团队在数联网上为什么会走这条路。我们本身是做软件的,2000年开始和南京大学的吕建教授一起申请973项目时,我们就想软件要从单机走向互联网,从运行平台走向互联网,所以造了一个词叫Internetware,拿到了软件领域的第一个973。从软件互操作开始,做到后面慢慢发现数据互操作更重要,所以在14年我们完成了一件事——黑盒式互操作技术研究。后面这个技术进一步推广应用,18年得到了计算机领域第一个国家技术发明一等奖。再后来,我们就围绕这件事情开始和罗伯特·卡恩合作。他解决的是数字对象的架构体系,我们需要解决什么呢?就是怎么通过黑盒式的方式把已有的数据资源开采出来。后面的工作,一是在2020年的时候北大牵头了DOIP新版标准,也就是数字对象互操作协议的新版标准;二是2022年疫情期间,我们发布了它的开源版,同时推出一个数据空间管理平台,那个时候我们就在讲数字经济基础设施。

数联网基础软件我们全部采用软件定义的方法,实现并扩展了数字对象架构的基础协议,核心的构件和共性的服务,在互联网的信息网络上可以提供多个系统或者是构件之间的接入、标识、发现、交付、使用、管控相关的基本功能,支持各类领域和区域的数联网基础设施建设和规模化应用。形成了一个基础软件平台,我们称之为大数据互操作系统。去年的时候这个成果被评为乌镇互联网大会的领先科技成果。

再介绍两个基本案例。前面讲了空间的定义,但是空间一定是和人和机构、应用平台紧密关联的,不存在所有的东西都列成一个空间。数据要素化就需要数据有一个独立存在的形式,SoLiD也要解决独立的形态但没有独立的标识和地址,数据不再依赖于具体的业务系统和业务场景,它以独立的形态存在一个库,这个库是一个全球联网的库,通过数据服务向不同的业务场景提供服务。可以看到,数字平台这几年对社会经济发展贡献是非常之大的,这是毋庸置疑的,但平台这几年也受到了很多的诟病,比如税收侵蚀的问题、数据垄断的问题都引起了很多人的重视。Web3.0概念的兴起事实上就反映了人们对平台的反思和个人对数据权利的追求。大家想想,我自己的数据散在各个平台上都盈利了,我自己得到了什么呢?除了得到方便,还有什么?能不能给我一分钱?所以Web3.0这几年有很多的探讨,我个人也是Web3.0概念的积极拥护者,虽然很多人认为这件事情不现实,但我们想努力朝着Web3.0的概念去努力。

个人和企业在社会经济活动中产生的大量数据都散落在平台上,信息不完整,数据难协调,自己管不了,每个平台都得重复登录,不方便,应用也难扩展,最重要的是数据收益分配不合理。个人和机构作为数据的原始来源,有没有办法得到合理的收益?这几年我一直在琢磨数据税的问题,我讲的数据税不是国家收费,而是说如果个人能管控好自己的数据空间,平台使用的时候能不能给个人一点钱。我觉得未来要实现收益分配的优化,是不是二者都有可能兼有?现在各地都在拼命地引入互联网公司,我说互联网公司干什么要引入呢?互联网本身就是跨时空域的,背后就是税收问题。各地都有税收,没有税收不行。我想这件事情能不能在数据空间里解决?

再看技术发展趋势。刚才我讲了需求,从计算机诞生开始数据管理就一直是刚需,我们早期编程是以业务代码为主的,数据和程序代码紧耦合在一起。数据库出现了以后把数据和应用解耦了,实现了数据和应用的第一次分离。数据存在数据库中,不再依赖于具体应用而存在,我们可以基于已有数据库构建不同的应用。但是,基于数据库的信息系统仍然是业务导向的,我们建立的所有系统是根据业务来构建一个数据库。这样的方式叫做“面向应用、效率优先”的数据组织的方式。一个人的数据,人事系统一套,财务系统一套,其他的教学系统、科研系统都需要,个人数据是散落在不同的数据库里面的。一个物理实体的数据到处存在,这些东西怎么协同起来?效率优先把数据组织成当前系统最利于处理的方式,面向不同应用需求采集相关数据,这是应用导向。这些跨系统的异构数据就难协同,按机器异域处理人类就难以理解,数据复用的难度就很大,每个系统都包含了部分的信息。现在进入人机物融合的泛在计算时代,万物数字化和万物互联成为一个需求。这就带来了构建物理世界的数字印象和数字孪生的需求,应该按照物理实体来组织数据,组织不同的应用围绕这些东西去使用数据,而这种方式现在的数据库做不到。历史上我们曾经出现过面向对象的数据库管理系统,有点沾边,但是似乎也很难。现在这个问题技术上没有解,没有人做这件事,所以我们要走向以数据为中心的计算架构。这个问题必须要解决,最好未来每个实体有自己的数据处理方式,应用从我的数据里面去取它需要的那一部分,而不是变成数据库的处理方式。

数字空间研发实践怎么做?数据处理的方式是什么样的?数据空间围绕现实世界的个人或机构构建其全量数据集,在一定意义上就可以视为这个物理实体的数字孪生,再用黑盒互操作技术,获得用户和相关方的主动授权后就可以把多源分散异构多态数据统一接入、建模、管理,进行分享、交易、信托,为数据要素化提供支撑。

有两个案例。一个是电子口岸数据空间,只要获得相关授权,就可以构建一个电子口岸的数据空间管理平台,把所有相关的应用、数据都汇聚到这个平台上,在平台上就可以访问它。基于平台就可以实现数据分享:一个是往银行,银行的亿级购付汇完成实时批复;第二个是往商务局,跨境电商统计监测系统、货运补贴辅助信息系统等等千亿级补贴和相关政策的兑付得以实现。这件工作大概汇聚、建模、分享报关数据日均25万次,产生千万货运补贴和亿级购付汇的实时批复。另一个是个人数据空间,提档建模个人档案数据每月290万条,成功匹配5.6万个高质量岗位,服务就业人数是28.7万。同样是经过个人授权、政府授权,拿到相关的数据,再通过汇聚、建模构成了这个空间,现在还在同一平台上为每个个体构建空间,把数据汇聚起来以后就分享给不同的工厂,雪糕厂招工、矿场招工等都使用这些数据。这是我们在数据空间上做的两个实践。

但我想解释一下这些案例还没有完全采用DOA体系。如果说下面有数字对象体系,有数联网的支撑,实现唯一标识就更好了,现在我们是两条线在走,希望在某一个时刻能够汇聚起来。

谢谢大家,我就给大家分享这么多

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部