9月25日,“2024-ADD数据应用场景大会暨Talk@Taihu台湖见面会启动仪式”在北京市通州区台湖镇隆重举办,50余位数据要素创业者、投资人,一起率先走进通州台湖,共话北京副中心产业发展新机遇。
在会上,毕马威数据资产主管合伙人陈立节、泥藕资本创始合伙人杜欣、元禾原点合伙人米菲、首钢基金母基金事业部副总经理张寒梅在《数据要素之创投新发展》主题对话中的精彩观点如下:
1. 隐私和安全与商业化之间的巨大鸿沟,或许是阻碍数据要素发展的主要难点。
2. 数据如果割裂,价值就不高,一旦整合才能产生更好的价值。我认为这是我们现在面临的挑战,也是机遇。
3. 如果把硬件比作人的肌肉和骨骼,那么算力算法就是大脑和神经网络,而数据就是血液和营养,这是一个系统化的工程。
4. 未来,我们期待政府、国企等核心单位,能够更多地建立数据共享机制,为做数据分析和挖掘的下游应用场景公司开放更多机会,这样才能真正让数据变成数据资产。
以下为现场对话内容,经创业邦整理后发布:
刘恒涛(主持人):大家好,我是创业邦副主编刘恒涛,很高兴和几位关注数据要素产业的投资人进行探讨。随着大数据时代的到来,数据资产的概念正在引起大家的重视,但是数据从资源到资产的转变还面临很多问题,包括安全、如何有效利用这些数据等。大家对于数据资产化的挑战有哪些看法?另外,大家在看创业项目的时候,关注哪一类的机会?
张寒梅:在大数据时代,无论是个人还是机构,我们都能感受到海量数据的存在。但是如何把数据积淀下来,对其进行有效的筛选、挖掘并快速找到我们真正需要的内容和信息,这其实是目前面临比较大的挑战。
举个例子,首钢母基金自2015年开始从事母基金投资业务,每年都会在平台上积累近百家的GP数据以及上千家被投企业的数据,这些数据在整个一级投资市场中是较为有效和广泛的。在此过程中,我们秉持着做产融结合、进行数字化转型的理念,搭建了自身的数据平台。众所周知,一级的私募股权母基金属于非标产品,如何通过不同的时间、行业、阶段等维度,为该非标产品构建一个定量的打分系统,并且使该系统能够实现数据可采集、可预警、可量化,这实则是大家都在探寻的一种较好方式。所以我们也是希望在这个过程中,让非标产品的投资决策流程,能够有据可依。
米菲:我觉得在投资领域,数据引起的投资变化非常明确且明显,可以大概分为几个阶段。在2014年之前整个互联网行业欣欣向荣之时,我们的投资聚焦于生产工具升级,更多地集中在智能制造、生物医药的创新上。随着互联网时代的到来,尤其是2014年以后,我们可以看到更多与数据安全、数据库变现以及一些与隐私计算相关的企业开始蓬勃发展,它们实际上也反向推动了硬件升级。例如,由于数据的增加和算力的升级,促成了更多AI芯片的诞生,包括现在大家熟知的大模型、生成式AI,所有这一切都是由于数据要素的变化和算力的提升,导致了行业的变化以及更多创业机会的出现。
杜欣:从我们自身的实践来看,隐私和安全与商业化之间的巨大鸿沟,或许是阻碍数据要素发展的主要难点。我认为能产生现金流的才叫资产,这也是我对数据和数据资产的理解。实际上,许多数据难以进一步商业化的原因,在于为满足共享安全和技术上的要求,而无法呈现数据真正有价值的部分。例如,很多人在商业过程中喜欢购买手机号码、客户信息、名单等,拿到后就立刻进行变现,这实际上违反了《刑法》第50条,会被追究责任。如何在数据的广泛安全性与数据资产的可变现性之间实现平衡,是问题的关键所在。
我曾经从事空间大数据相关工作,在空间位置信息方面,如果过度关注宏观而忽视微观视角,会导致数据的意义不大,用户的支付意愿下降。有时颗粒度变得很粗,比如做商业规划或选址规划时,用户就不会为此买单。之前有文章指出,中国的Saas难以付费,商业模式不佳,很大程度上是因为我国商业业态中数据质量较差,这是一个明显的问题,从而形成了鸡生蛋、蛋生鸡的困境。由于数据质量不好,用户付费意愿不强,导致商业模式多为2B、2G,只能从事供应链上的事情,这就带来很大问题。
原来我们投资时,特别关注其是用户驱动还是销售驱动的逻辑。用户驱动是指用户为呈现的价值买单付费。例如,大家熟知的SaaS软件可画,中国区可画模板质量与海外版本相差甚远,在海外能以高价出售,在国内却因模板和数据质量差而无法使用,这也是导致当前数据产业变现困难的重要原因。
进一步来说,我们要将数据资产和数据要素的价值提升到很高的认知程度,将其与土地、设备、机器、人员等同等定位。其次,我们要明确数据要流动、交易甚至共享,才能产生更多价值。过去我们更强调数据的可控性和安全性,力求建立自己的闭环系统,认为100%掌握数据,但多年后却发现只是掌握了一堆数据垃圾,无法在同行和应用之间进行交易,而原本期望这些数据有一天能产生大量资产价值,但多年来实际情况与产业期待相差甚远。未来,我们期待政府、国企等核心单位,能够更多地建立数据共享机制,为做数据分析和挖掘的下游应用场景公司开放更多机会,这样才能真正让数据变成数据资产。
刘恒涛(主持人):的确,这也正是通州打造数据基础先行区的价值所在,让数据流通起来。接下来想请陈总分享一下。
陈立节:我的视角与各位有所不同,我一直秉持这样一个观点:操作层面并不是问题,重点在于策略方向和业务融合。比如有专家说数据要素化缺少资金投入,但我们有众多优秀的基金投资人,找到好的企业或项目是愿意投资的。刚刚也提到了安全合规的挑战与问题,但是我们也有律所律师、安全合规专家以及很好的安全技术手段能够为数据交易流通提供相关支持,可以参考国家《数据二十条》数据的三权分置来推动并解决问题。再如数据质量方面的挑战问题,我们也有众多数据服务商可以帮助企业开展数据治理,提升数据质量。所以操作上不成问题。
那么,到底难在哪里呢?我认为根源上在于业务和技术的错配问题。
我们今天大会的主题是数据应用场景,而单纯意义上来看数据应用场景需求规划其实与技术并无直接关联,因为首先要明确用数据到底做什么,实现什么业务目标或价值。例如,通州现在要发展数字文旅,抛开技术实现手段,要首先思考数字文旅该如何发展。比如,最近非常受欢迎的游戏《黑神话悟空》就是一个例子,这个游戏构建的虚拟场景直接带动了山西等地文旅的火爆。那么我们可以将文旅的各种场景,如旅游景点、寺庙等进行虚拟化并推广线上旅游或展览么?如果是,那么目标客户和潜在受众在哪里?我们需要实现哪些业务场景来创造哪些业务价值?这些问题明确之后,我们再考虑如何利用数字化技术来实现这些目标。
但是大家可以看到一个非常有趣的现象:目前推动数据资产化和数据业务场景的主要是技术公司或技术人员,业务人员参与过少,传统的业务意识理念尚未转变,甚至在转型上可能存在抵触情绪。我与许多企业领导探讨过这个话题,大家对数字化理念的理解可能还不够充分。
建立全国性的数据要素市场并推动数据资产化与价值实现,可以一定程度上解决存在的错配问题。即便是在区域层面,例如通州,推动数据要素的发展也涉及广泛领域和机构,包括政府相关部门、数据交易所、数据服务商、供数企业、用数企业、技术公司、投资人等,这些共同构成了一个完整的生态体系。我们的目标是在这一生态体系中实现特定的应用场景和价值创造。然而,目前缺乏一个有能力整合这些要素的主体,虽然技术是推动力,但它本身并不足以推动整个资产化进程。
投资者对此也很关心。今年6月,我参加了在北京举行的天使基金会数据资产研讨会,与二三十家基金公司分享并探讨投资人对企业数据资产化的看法。投资人其实不缺资金,但他们不确定如何找到好的数据资产应用场景及相关标的企业。我理解他们的顾虑,但由于时间有限,我不再深入讨论。我认为,探索如何整合资源以弥补市场错配,是未来值得关注的发展方向。
刘恒涛(主持人):所以这个事情需要系统地推动,包括政策层面、政府层面以及投资层面。它并非仅仅由技术驱动,最终还是要应用到场景和终端上。接下来,我要问第二个问题,大家都认为数据、算力、算法是人工智能的三大支柱,在人工智能时代,数据的重要性更加凸显。我想请各位聊一聊,人工智能的快速发展给数据要素带来了哪些挑战和机遇,有哪些值得关注的技术创新方向和领域?
杜欣:先说挑战,实际上,版权问题有些模糊。原来数据资产有明确的价值和版权,但现在训练成大模型后,呈现出来的是经过模型再输出的内容,那么这个内容背后的逻辑是什么呢?我之前听到小道消息,现在国内很多头部大模型公司背后训练的数据是相同的,同一条数据训练出不同版本的大模型应用。如果是这样,原来的数据是输入和输出,现在变成了数据输入后,通过大模型的翻译或演绎再输出,这对数据的拥有者或数据资产的拥有者来说是不公平的,因为外面加了一个壳后,最后输出的内容就变成了有版权的内容,我认为这可能带来了一些挑战。
另外,从机会角度来讲,特别是生成式模型这波机会,与之前的大数据完全不同。这种多模态的方式需要靠大力出奇迹,此时数据产业最大的机会是希望我们能尽快拿出更好、更高质量的数据。比如说我们认为OpenAI 的ChatGPT好,很多时候是因为英文世界的数据质量比我们好,数据质量和数据标注的水平更高,这是一个很重要的因素。如何快速实现这一点,就回到刚才的问题,促进我国基于中文的数据要素更好地获取、分享、分类、管理和打标注标签,并能够变成公共数据资源的池子,再结合算法和算力,就能够训练出适合中国、在一些产业应用或细分市场有独特价值的人工智能应用,这也是中国区别于世界的一个非常大的机会。
陈立节:我们来看这三个要素:算力、算法和数据,现在也很多地方用“算料”来替代数据。在算法方面,如果与国际顶流的算法模型相比,比如美国,中国仍存在一定差距。但我一直与许多行业专家探讨,我认为这并非问题所在。因为美国在人工智能方面有其独特的优势,它起步比我们早,投入大,各方面支持也充足。然而,“算料”是中国未来突破的一个很好切入点。大家都知道,美国各个州的行政相对分散,另外美国在个人安全法案这方面执行非常严苛(美国和欧洲都是如此),导致他们先天难以在国家层面整合并获取大量的算料,也就是数据。即便模型算法再领先、再先进,如果没有大量数据进行训练,做出来的效果一定不佳。
而中国现在有了这样的契机,去年国家数据局成立后,最近发布了一系列政策文件如数据要素X三年行动计划、开展全国数据资源调查的通知等,此外公共数据授权运营等配套制度也正在起草制定过程中。我完全相信,我们国家有能力按照三中全会的第六条决定去构建全国统一的数据要素市场。目前,各省的政数局及相关部门也在积极推进相关工作。我们有机会在区域甚至国家层面实现数据的真正整合,这在世界其他任何地方都难以实现。
数据如果割裂,价值就不高,一旦整合才能产生更好的价值。我认为这是我们现在面临的挑战,也是机遇。挑战在于有如此大量的数据,很多数据都在企业手中,企业不太愿意提供,因为掌握海量数据的大型企业会问,提供数据对自己有什么好处,可能主营业务一年收入100个亿,而数据提供出来只能挣几百万或千万,何必承担合规安全风险呢?所以挑战非常多,但我觉得未来潜在的收益价值也很大,这确实需要政府发挥特定作用。包括我们毕马威在内,也在探索如何通过一些试点应用,让企业能够快速看到数据价值释放的收益,能够“短平快”地尝到甜头,更好地在其他场景或领域推广,这也是未来我们要推进的方向。
米菲:非常赞同。在中国,数据要素具有巨大的数据量这一先天优势,但同时,数据质量也确实存在着很大的挑战。此外,由于中国拥有非常丰富的应用场景,所以在很多场景方面,比美国甚至其他许多国家都更具优势。
我们曾经一度重点投资智能制造行业,我们发现了一个非常有意义的变化。以前,在先进制造领域,比如精密机床等方面,我们认为中国不如欧洲。但现在,在智能化设备升级方面,我们看到了中国领先于海外的机会。例如,在传统的炼油炼钢等企业中,由于数据要素的变化和人工智能的应用,中国的企业在传统升级上已经领先了国外的一些先进企业。这是因为中国具有先天独有的场景应用,对此,我们非常有信心。
对于投资人来说,我认为不必仅仅紧盯着之前大家听到的财税、人力、法律法规等数据要素,虽然它们应用得非常好,但未来会有更多行业的数据,让大家进行更多的创新,这也是我非常看好的领域。
张寒梅:先说说我们关注的赛道。在过去两年里,首钢母基金对智能制造关注较多,在机器人、半导体领域布局较多。我们认为,人工智能带来的行业机遇,并不局限于软件和硬件,而是软硬兼顾的全方位机会。如果把硬件比作人的肌肉和骨骼,那么算力算法就是大脑和神经网络,而数据就是血液和营养,这是一个系统化的工程。
如今,全球的半导体产业规模已经达到6000亿美金,我们依然相信,AI能够再造一个半导体的规模,我们也非常期待这样的增长和投资机遇的到来。
另外,刚才主持人也提到了下一步可能遇到的挑战,母基金投资回报周期较长,我们可能会更有忧患意识,在当前繁荣之下会关注未来的挑战。我们看到,有质量的数据,目前获取相对还比较容易,但未来可能在三五年,甚至十年八年后,有质量的数据的价格和获取难度会逐渐提升。所以我们现在看到很多数据类应用企业已经开始建立自己的护城河。
当然,我理解这与刚才杜总提到的数据交流并不冲突,并不是说这些数据一定要掌握在单个企业手中,可能是一个联盟、一个协会,也可能是大家的朋友圈。无论通过何种方式,大家都在积极探索未来如何能够相对廉价且有效地获取数据,这是我们所看到的现状,也是下一步关注的方向。
刘恒涛(主持人):最后一个问题,现在国家鼓励数据要素的产业发展,并出台了许多政策,国家在各个方面都在加快促进行业的发展,包括通州台湖现在也在打造数据基础制度先行区。大家认为这些措施对于未来数据要素市场的进一步产业化发展,能带来哪些推动作用?
陈立节:首先,我们还是要回归到推动数据产业化的目标或本质。我先给大家简单说一个数字,去年2023年全年GDP中,数字经济占比有两套不同的口径,有一套口径的占比非常高,达到42%、43%,这包括了通过数字化技术对传统实体经济带来的价值。但实际上,还有一套核心的统计口径,即单纯数字化相关的产业,占比不到10%。所以这里就提出了两个概念,数字产业化和产业数字化,一个是我们所说的技术产业、数字产业直接带来的产值,另一个是技术和数字给实体产业、传统产业带来的产值。我们刚才一直提到的制造业,数字化带来的智能制造,那么智能制造到底属于什么呢?它其实是一个融合,我们讲数实融合,就是数字产业和实体产业的融合。单独的数字产业占比不到10%,一旦与其他不同行业融合,可能就会达到更高的42%,这个比例的还有很大的提升潜力。所以未来推动的大方向应在于这两者如何结合。
国家数据局发布的《“数据要素✖”三年行动计划》提出了12个大的行业场景,科技数据场景只是其中一小部分,他场景还包括制造、交通、医疗、健康、金融等11个行业板块。单独推动技术创新、技术革命和数据产业的发展,即使做得再好,也只是做加法,把数据产业加到整个GDP上。我理解的“数据要素✖”,为什么不是“➕”呢?是将数据产业的核心能力与传统的11个行业融合,实现数据要素对传统行业的价值倍乘效应,不是简单的加成,而是就像2✖2等于4,4✖4等于16的指数级赋能概念,给业务创造更高的价值。
我们现在要打造的一个推动点,就是要把这业务和技术两方拉到一起,这也响应了前面提到的第一个问题。这些传统业务领域的企业和数据技术领域的企业,如何将其融合起来,这是非常重要的一点,也是我们未来要推动的事情。
杜欣:我自己是第一次来台湖这么美丽的地方,感觉这里现在像江南而不像北京,而且现在也是北京一年中最好的季节,这其实是一个非常好的契机。因为数据产业本身不应只关注如何获取数据和管理数据,而使其变成一个纯粹的技术范畴的事情。我非常同意陈总的观点,更多时候不应该研究面粉的事,而是研究面包的事,即如何结合数据的赋能来做大做强产业。而且数据产业一定不是单独的,一定是与某一个产业进行融合。刚才提到《黑神话悟空》,如果单看它就是一个游戏,出售很多游戏的版权内容,在传统意义上似乎算不上实体经济,也没有什么产业可言。但是,如果它所带来的影响力能够带动很多线下的旅游、消费以及衍生品的销售,那么这个逻辑就是一个很强的推动变化。
我们整个的思维方式应该改变,做数据小镇最重要的是能够引领性地去改善对数据的看法,给它一个更高的定位,用数据来赋能各个产业,打通场景。比如,我们台湖这边能否开放更多的场景应用,让行业内的公司结合它,产生出更多有趣的或在其他地方见不到的应用,而这些应用又能产生更多的价值。例如,我们毗邻环球影城,是否可以将数据与文旅和环球影城的很多内容相结合,二次创作出更多属于台湖产业的IP。核心还是要抓场景、抓应用,找到更多能够与市场结合的点。我相信这确实是一件非常有意义的事情。
现在整个国家各个地方都在讲智能制造,都在卷供应链,这使得我们的成本已经被压得很低,已经卷到不能再卷了。如何增加利润,其实要靠数据的叠加。当你结合数据的价值后,产品的差异化就会明显不同,从而可以卖更高的价格。你看Iphone16 没有硬件创新,只是增加了AI的加持,就可以成为历史上最重要的一次产品革命更新。让数据赋能各个产业,并实现产业价值的倍增发展,这是一个非常好的路径。
米菲:不知大家是否记得南总分享的数据层面的内容。从北京来讲,它具有非常明显的先天优势,是从数据创新到技术创新的源头。把北京放到全国来看,我们80%左右的新一代信息技术企业创新人才,包括数据、技术等各方面,在全国都占据绝对优势。
但从投资角度来说,不得不承认这几年北京在全国的活跃度有所下降,尤其是与大湾区和江浙一带相比。所以我们会看到很多创新企业,包括数据来源的企业,可能最终需要赋能的地方在江浙和广深。
刚刚我与一些企业交流,他们说团队在北京,注册地却在南京或其他地方。从这个层面讲,北京尤其是通州台湖,如果想把数据场景开放给优秀的企业,在资本、企业和场景的流通上,大家都要共同努力,把要素整合起来,才能真正形成合力,推动整个北京在该领域的持续领先优势和未来的创新优势。
从这个角度来讲,通州台湖在场景丰富度上确实有一些先天优势,拥有数字文旅、元宇宙、网络安全等一系列数据应用的场景。
刘恒涛(主持人):最后请各位嘉宾为通州台湖打造数据基础制度先行区分享一句寄语。
陈立节:数据赋能,建立具有通州本地特色的数据应用场景。
杜欣:希望今后北京最优秀的数据类企业,都是从台湖起飞的。
米菲:用资本链接的方式,让台湖聚集更多优秀的企业。
张寒梅:台湖美丽的风景是起点,台湖产业的未来更是我们大家共同的愿景。