沈昌祥院士:大数据还需“开矿冶炼”

关注
一旦被开发,应用价值巨大

12月13日,2024 ADD数据应用场景大会在北京市通州区台湖镇隆重举办,数十位数据要素创业者、投资人,一起走进通州台湖,共话北京副中心产业发展新机遇,探寻数据要素创新的无限可能。

会上,中国工程院沈昌祥院士在《构建安全可信网络新生态,促进新质生产力高质量发展》的主题演讲中精彩观点如下:

1.数据是矿山源头,要开矿、要冶炼,一旦被开发价值巨大。为了快速处理大数据,我们需要开发新的软件工具,这不仅仅是数据共享,而是数据的深度挖掘。

2.安全可信要解决本质问题。安全可信不仅要解决没有黑客、病毒、漏洞的问题,更要从计算科学的角度认清网络空间的脆弱性。例如图灵计算原理未充分融入攻防理念,冯诺伊曼体系结构缺乏防护部件,重大工程缺少安全服务,人工智能数字化处理也存在问题等。

3.要让整个环境达到“六不”:攻击者进不去系统、进去也拿不到数据、拿到了也看不懂、改不了、系统不会瘫、最后还有审计机制。这样的系统是经过验证的,能够抵御所有病毒的攻击。

image.gif

以下为现场演讲内容,经创业邦整理后发布:

01 大数据是“钻石矿”,亟需“开矿冶炼”

今天,我想与大家探讨如何发展数字经济,构建安全可信的网络新生态,以促进新质生产力的高质量发展。

在数字经济时代,我们面临着巨大的机遇和严峻的挑战。习近平总书记强调,发展新质生产力和新的产业体系,尤其是数字经济,是重中之重。

什么是数字经济?电子计算机发明以后,人类进入了数字经济时代,计算机取代了手工计算,实现了自动化计算,生产也实现了自动化。这一转变也使数据从单一的控制工具转变为交互、表述事物特征与内涵的关键要素,即“数据工程”。

数字经济背景下,产业也不再局限于控制层面,而是追求全程数字化、整个产业体系的数字化,即产业数字化。然而,产业数据化的数据量相对较小,与之相比,大数据则是指“无法用现有软件工具处理的海量复杂数据集合”。

把数据搜集起来再生产,产生的新产品叫做“数字产业化”。总书记强调,数字产业化加快产业数字化。数字产业化是新兴产业,发展智能化产业的源头是大数据。

李克强总理在2018年国家大数据峰会上明确指出,大数据是“钻石矿”,其价值尚未被完全挖掘,因此我们要“开矿”。大数据是矿山源头,要开矿、要冶炼,其特点在于其结构不完整,难以理解,但一旦被开发,其价值巨大。

为了快速处理大数据,我们需要开发新的软件工具,这不仅仅是数据共享,而是数据的深度挖掘。数字产业化是新兴的经济体系,大数据开矿和冶炼后形成“半成品”,即大模型的传输。

“半成品”进一步加工处理,如预训练,可能成为AI产品。但这些产品需要构成体系,形成数字化应用和社会。

02 从计算科学基础,为大模型风险溯源

然而,大模型存在风险,我们要弄清规律、化解风险、创新发展,探索和解决其中的问题。大模型具有三要素:数据、算力、算法,各方面都有要解决的问题。

尤其是大数据算力问题,投入很大。GTP、Sora投入了海量的数据,GTP-3产生了1750亿参数,GTP-4有1.8亿参数。大模型要更大的城市空间、服务器、云投资也非常大。有机构认为,大模型至少要投入300亿人民币。

现在世界好多个大模型公司都倒闭了,风险极大,我们要搞清楚大模型的本质是什么?要真正产生新产品、新应用。

算法方面,算法如何利用海量的数据,持续学习迭代?我们现在用网络推理的算法,带来了虚假、偏见、侵权等。

数据方面的处理和收集需要清晰的方法,以避免产生偏见和规范能力问题。

数字经济的安全可信生产体系需要解决以上这些问题,需要研究、生产和推广安全可信的网络产品和服务。遵循国家网络安全法律法规、战略规划及等级保护制度的要求,全面采用安全可信的网络产品和服务,不仅是对当前安全挑战的积极应对,更是对未来数字社会可持续发展的深远布局。

此外,《关于完善市场准入制度的意见》提到了要优化新业态、新环境,其中人工智能、自主可信计算、信息安全领域的规定值得注意。自主可信计算比较少听到,其核心在于确保信息系统的安全性和可控性,一边计算一边防护,也就是像免疫器官一样保护心脏、大脑的安全。

安全可信要解决本质问题。安全可信不仅要解决没有黑客、病毒、漏洞的问题,更要从计算科学的角度认清网络空间的脆弱性。例如图灵计算原理未充分融入攻防理念,冯诺伊曼体系结构缺乏防护部件,重大工程缺少安全服务,人工智能数字化处理也存在问题等。

去年,马斯克与其他近400位AI领域的专家联名签署了一封公开信,强调减轻AI灭绝风险的重要性,并将其与流行病和核战争等其他全球性社会风险相提并论,作为全球优先事项。

因此,要使得完成计算任务的逻辑组合不被篡改和破坏,能达到预期的计算目标,必须安全可信。

03 可信技术的深入,促进新质生产力发展

我国有5个标准知识产业化,要求整个环境达到“六不”:攻击者进不去系统、进去也拿不到数据、拿到了也看不懂、改不了、系统不会瘫、最后还有审计机制。这样的系统是经过验证的,能够抵御所有病毒的攻击。

中国工程院致力推动自主可信计算技术的应用,以促进新质生产力的发展。

在1992年,我们立项研制免疫的综合安全防护系统(智能安全卡),1995年通过测评和鉴定,实现了一边计算一边防护。历经数年的军民融合研发与应用实践,我国成功构建了独具特色的安全可信技术体系,引领可信计算迈入全新的3.0 时代。

这一时代以公钥密码来实现身份识别的高强度保障;以对称密码技术确保数据加密存储的安全性;同时融合环境免疫抗病毒原理构建起安全防线。数字定义的可信策略实现了对用户操作的无缝透明集成,而智能控制与安全执行并重的双重体系结构,更为信息系统的稳定运行提供了双重保险。

我们实施创新发展战略,有1.0、2.0和3.0版本,每个版本都在提高系统的安全可靠性。目标是构建一个高可信网络,开放网络技术的相关产品,构建网络技术保障体系。

《国家中长期科学和技术发展规划纲要2006-2020 年》明确提出“以发展高可信网络为重点,开发网络安全技术及相关产品,建立网络安全技术保障体系”,为网络安全技术的发展指明了方向。2020 年10 月,国家等级保护2.0 与可信计算3.0 攻关示范基地成立,标志着我国在可信计算领域迈出了坚实的一步。随着产业链的逐步完善,如今可信技术已深入CPU 层面,以飞腾ARM架构与引进国产化替代的X86 海光为代表,展现了技术融合的深度与广度。

美国也提出了可信计算的概念,但他们称之为“零信任架构”。有人认为零信任架构是最领先的,这是不对的。我们早在1999年就有了国标17859。

2021年,美国最大的成品油管道运营商自动化水平很高,但是安全问题没有解决。遭受勒索软件攻击后,美国东部沿海多州供油网络瘫痪,威胁社会稳定性。美国政府没办法,宣布东海岸17个州进入紧急状态。

而我国经过40多年共同发展,安全可信,数字化产品已相当的齐全,ARM、X86已经实现国产化替代。但是大量生产服务器中的不可信怎么办?

我们的可信计算架构已经在国家电网等关键基础设施中得到应用,证明了其有效性和可靠性。国家十个省级以上的调度控制中心,都是安全可信的,能抵御各个国家的病毒攻击,这是真正实现了自主可信计算,智能化安全的数据处理。

我们的系统不仅高效,而且成本效益高,通过智能安装卡和CPU的改进,降低了成本,为数据化应用产业带来了巨大的利润空间。这是一个重大的机遇,将促进新兴产业的发展,推动新质生产力的增长。


反馈
联系我们
推荐订阅