沈昌祥院士：大数据还需“开矿冶炼”

创业邦·2024-12-17

关注

一旦被开发，应用价值巨大

12月13日，2024 ADD数据应用场景大会在北京市通州区台湖镇隆重举办，数十位数据要素创业者、投资人，一起走进通州台湖，共话北京副中心产业发展新机遇，探寻数据要素创新的无限可能。

会上，中国工程院沈昌祥院士在《构建安全可信网络新生态，促进新质生产力高质量发展》的主题演讲中精彩观点如下：

1.数据是矿山源头，要开矿、要冶炼，一旦被开发价值巨大。为了快速处理大数据，我们需要开发新的软件工具，这不仅仅是数据共享，而是数据的深度挖掘。

2.安全可信要解决本质问题。安全可信不仅要解决没有黑客、病毒、漏洞的问题，更要从计算科学的角度认清网络空间的脆弱性。例如图灵计算原理未充分融入攻防理念，冯诺伊曼体系结构缺乏防护部件，重大工程缺少安全服务，人工智能数字化处理也存在问题等。

3.要让整个环境达到“六不”：攻击者进不去系统、进去也拿不到数据、拿到了也看不懂、改不了、系统不会瘫、最后还有审计机制。这样的系统是经过验证的，能够抵御所有病毒的攻击。

以下为现场演讲内容，经创业邦整理后发布：

01 大数据是“钻石矿”，亟需“开矿冶炼”

今天，我想与大家探讨如何发展数字经济，构建安全可信的网络新生态，以促进新质生产力的高质量发展。

在数字经济时代，我们面临着巨大的机遇和严峻的挑战。习近平总书记强调，发展新质生产力和新的产业体系，尤其是数字经济，是重中之重。

什么是数字经济？电子计算机发明以后，人类进入了数字经济时代，计算机取代了手工计算，实现了自动化计算，生产也实现了自动化。这一转变也使数据从单一的控制工具转变为交互、表述事物特征与内涵的关键要素，即“数据工程”。

数字经济背景下，产业也不再局限于控制层面，而是追求全程数字化、整个产业体系的数字化，即产业数字化。然而，产业数据化的数据量相对较小，与之相比，大数据则是指“无法用现有软件工具处理的海量复杂数据集合”。

把数据搜集起来再生产，产生的新产品叫做“数字产业化”。总书记强调，数字产业化加快产业数字化。数字产业化是新兴产业，发展智能化产业的源头是大数据。

李克强总理在2018年国家大数据峰会上明确指出，大数据是“钻石矿”，其价值尚未被完全挖掘，因此我们要“开矿”。大数据是矿山源头，要开矿、要冶炼，其特点在于其结构不完整，难以理解，但一旦被开发，其价值巨大。

为了快速处理大数据，我们需要开发新的软件工具，这不仅仅是数据共享，而是数据的深度挖掘。数字产业化是新兴的经济体系，大数据开矿和冶炼后形成“半成品”，即大模型的传输。

“半成品”进一步加工处理，如预训练，可能成为AI产品。但这些产品需要构成体系，形成数字化应用和社会。

02 从计算科学基础，为大模型风险溯源

然而，大模型存在风险，我们要弄清规律、化解风险、创新发展，探索和解决其中的问题。大模型具有三要素：数据、算力、算法，各方面都有要解决的问题。

尤其是大数据算力问题，投入很大。GTP、Sora投入了海量的数据，GTP-3产生了1750亿参数，GTP-4有1.8亿参数。大模型要更大的城市空间、服务器、云投资也非常大。有机构认为，大模型至少要投入300亿人民币。

现在世界好多个大模型公司都倒闭了，风险极大，我们要搞清楚大模型的本质是什么？要真正产生新产品、新应用。

算法方面，算法如何利用海量的数据，持续学习迭代？我们现在用网络推理的算法，带来了虚假、偏见、侵权等。

数据方面的处理和收集需要清晰的方法，以避免产生偏见和规范能力问题。

数字经济的安全可信生产体系需要解决以上这些问题，需要研究、生产和推广安全可信的网络产品和服务。遵循国家网络安全法律法规、战略规划及等级保护制度的要求，全面采用安全可信的网络产品和服务，不仅是对当前安全挑战的积极应对，更是对未来数字社会可持续发展的深远布局。

此外，《关于完善市场准入制度的意见》提到了要优化新业态、新环境，其中人工智能、自主可信计算、信息安全领域的规定值得注意。自主可信计算比较少听到，其核心在于确保信息系统的安全性和可控性，一边计算一边防护，也就是像免疫器官一样保护心脏、大脑的安全。

安全可信要解决本质问题。安全可信不仅要解决没有黑客、病毒、漏洞的问题，更要从计算科学的角度认清网络空间的脆弱性。例如图灵计算原理未充分融入攻防理念，冯诺伊曼体系结构缺乏防护部件，重大工程缺少安全服务，人工智能数字化处理也存在问题等。

去年，马斯克与其他近400位AI领域的专家联名签署了一封公开信，强调减轻AI灭绝风险的重要性，并将其与流行病和核战争等其他全球性社会风险相提并论，作为全球优先事项。

因此，要使得完成计算任务的逻辑组合不被篡改和破坏，能达到预期的计算目标，必须安全可信。

03 可信技术的深入，促进新质生产力发展

我国有5个标准知识产业化，要求整个环境达到“六不”：攻击者进不去系统、进去也拿不到数据、拿到了也看不懂、改不了、系统不会瘫、最后还有审计机制。这样的系统是经过验证的，能够抵御所有病毒的攻击。

中国工程院致力推动自主可信计算技术的应用，以促进新质生产力的发展。

在1992年，我们立项研制免疫的综合安全防护系统（智能安全卡），1995年通过测评和鉴定，实现了一边计算一边防护。历经数年的军民融合研发与应用实践，我国成功构建了独具特色的安全可信技术体系，引领可信计算迈入全新的3.0 时代。

这一时代以公钥密码来实现身份识别的高强度保障；以对称密码技术确保数据加密存储的安全性；同时融合环境免疫抗病毒原理构建起安全防线。数字定义的可信策略实现了对用户操作的无缝透明集成，而智能控制与安全执行并重的双重体系结构，更为信息系统的稳定运行提供了双重保险。

我们实施创新发展战略，有1.0、2.0和3.0版本，每个版本都在提高系统的安全可靠性。目标是构建一个高可信网络，开放网络技术的相关产品，构建网络技术保障体系。

《国家中长期科学和技术发展规划纲要2006-2020 年》明确提出“以发展高可信网络为重点，开发网络安全技术及相关产品，建立网络安全技术保障体系”，为网络安全技术的发展指明了方向。2020 年10 月，国家等级保护2.0 与可信计算3.0 攻关示范基地成立，标志着我国在可信计算领域迈出了坚实的一步。随着产业链的逐步完善，如今可信技术已深入CPU 层面，以飞腾ARM架构与引进国产化替代的X86 海光为代表，展现了技术融合的深度与广度。

美国也提出了可信计算的概念，但他们称之为“零信任架构”。有人认为零信任架构是最领先的，这是不对的。我们早在1999年就有了国标17859。

2021年，美国最大的成品油管道运营商自动化水平很高，但是安全问题没有解决。遭受勒索软件攻击后，美国东部沿海多州供油网络瘫痪，威胁社会稳定性。美国政府没办法，宣布东海岸17个州进入紧急状态。

而我国经过40多年共同发展，安全可信，数字化产品已相当的齐全，ARM、X86已经实现国产化替代。但是大量生产服务器中的不可信怎么办？

我们的可信计算架构已经在国家电网等关键基础设施中得到应用，证明了其有效性和可靠性。国家十个省级以上的调度控制中心，都是安全可信的，能抵御各个国家的病毒攻击，这是真正实现了自主可信计算，智能化安全的数据处理。

我们的系统不仅高效，而且成本效益高，通过智能安装卡和CPU的改进，降低了成本，为数据化应用产业带来了巨大的利润空间。这是一个重大的机遇，将促进新兴产业的发展，推动新质生产力的增长。