人类离通用人工智能(AGI)还有多远?
很长时间里,这是一句天问。但从ChatGPT到GPT-4,我们越来越清晰地看见,通向AGI的大门正在缓缓打开,人类正在进入认知智能时代。
蓝驰创投正在打造AGI先锋俱乐部,帮助有志于征战新AI时代的你快速找到击掌相认的同伴。欢迎加入我们!
同样基于这个目标,蓝驰创投正式推出「通向AGI之路」专栏,分享我们对今时今日AI的深度思考、以及对AGI的描摹和推演。本文来自蓝驰创投投资合伙人石建平,他结合学术和产业的视角,回答了认知智能时代的到来会给人类数字文明带来怎样的海啸。
去年7月,人工智能又一次进入社会大众的视野:
Midjourney发布后,普通用户能通过自己的提示生成非常有创意、高质量的图片,持续迭代修改后,最终生成复合甚至超出用户预期的图片;
StabilityAI开源了Stable Diffusion模型, 随即迅速传播,让开发者生态能定制开发和训练满足特定需求、场景、迭代速度的提示生成图片产品。
随后的11月,人工智能知名企业Open AI发布ChatGPT,ChatGPT第一次以类人类的语言模式,具备了和人对话、问答、语言理解、翻译等语言处理能力,这又一次超出了普通用户对认知智能能力的预期。这标志着人类在通向通用人工智能的路上又迈进了一大步。
Midjourney和ChatGPT的爆发背后孕育着什么更大的趋势。对于信息革命、人类数字文明,是否存在比移动互联网、云计算更大的海啸级别(tsunami)变革和价值创造的机会?可能是会什么呢?
认知智能是AI发展的下一个前沿
何为认知智能
认知人工智能(Cognitive AI),是一种旨在模拟人类认知智能的人工智能,人类的认知智能包括学习、理解、分析、问答、交流、记忆、生成、推理等能力。认知人工智能使用先进的模型、算法和机器学习技术,分析、推理、理解和学习大量数据,包括结构化和非结构化数据。这些系统可以学习、识别、生成、或做出预测并生成类似于人类推理的见解。
人工智能下一个前沿
人工智能已经存在了几十年了,中国开始探索人工智能并在各种场景落地也经历了至少十余年;主流的人工智能还是在结构化数据的基础上,通过传统机器学习算法做分析和预测、基于特征工程做分析和推荐、或基于深度神经网络对图像分类识别。
但由于最近大语言预训练模型和生成模型的进展,数字世界中人工智能对于人类语言文本的理解、对话、生成,第一次达到了类人类的水平,人工智能的发展进入了认知智能的时代。
认知智能的时代已经开启
底层架构、算法、模型的创新和快速发展,从量变到质变推动着认知智能时代开启。推动认知智能起飞的核心因素包括AI OS、大语言模型(large language foundation model)、检索模型(retrieval model)和预训练、微调、Prompt 工程及各种反馈的强化学习技术。
AI OS
操作系统(OS)具有如下特征:(1)强抽象能力;(2)行业de facto标准;(3)基于OS建立行业基础设施和应用生态。OS是行业生态和应用发展的最基础的底座,PC的发展得益于windows OS,互联网的发展得益于Linux,云的发展由于虚拟化OS和K8S。AI的高速发展也需要有类似特征的OS底座。
AI在大语言模型(Large language model,LLM)上是基于transformer&attention的架构,这个架构对于人类的知识及其多种表现形式有极强的抽象和表达能力,人类第一次在数字世界用同一个架构来表达人类各种模态的知识。
由于其强大的抽象和表达能力,这一架构已经开始成为行业最主流的AI模型架构,除了LLM被广泛使用外,图片和其他模态的场景也在发展或探索中,成为基础模型的de facto标准势头出众。
这个de facto标准开始推动了基于transformer的LLM的基础设施和行业生态的发展,而且越来越多人意识到,transformer架构与大语言模型的结合,使得基于语言的认知智能的迭代迅猛。
Large Language&retrieval models
什么是foundation model(基础模型)?任何一个在广泛数据上进行训练(通常使用规模化的自监督)的模型,都可以被调整(如微调)以适用于各种下游任务。
Large Language Model(LLM)可以理解为一个数据库,人类第一次把历史上所有知识,最大规模地通过高效压缩的方式保存到这个“数据库”里。基于LLM衍生的ChatGPT模型用人类最熟悉的自然语言对话方式,来理解用户的意图,用递进式的、极其高效、开放模式去获取知识。生成式的大模型还能通过理解人类的意图递进式地去生成优质的内容。
预训练、微调、Prompt 工程及“X”反馈的强化学习技术
认知智能基础模型不仅是通用、开放式的智能,而且通过微调和提示工程等各种技术,让通用认知智能模型有能力更好服务到各行各业——如金融、医疗、教育、信息科技、媒体等;各种场景——如研发、销售、客服等。
通过各种Live使用反馈机制加上强化学习能力,知识数据库在扩展的同时,模型和使用者(无论是人类、系统、还是机器)的意图更好地对齐,在被使用过程中,模型也持续在升华。
认知智能的类人类语言处理能力、defacto技术架构、开放和通用的场景、快速的迭代进化,且能服务到专业、特定场景,这些都标志着认知智能开始进入了人工智能的主流赛道。
智能计算和AI-First SaaS将引领计算世界下一波浪潮
信息计算时代
人类数字文明的发展依赖于计算范式的创新和发展。从50年的mainframe、80年代的PC、2000年的互联网、2010年的移动互联网,到还在持续发展的云计算,这些计算范式的演进推动个人和企业的数字文明发展,而且每次变革都会带动全球经济效率和规模的提升。
从mainframe到云计算是信息计算时代,把信息在数字世界中进行结构化,在数据世界中进行计算、模拟、甚至预测。信息计算的特征除了数字化、结构化外,还有确定性(deterministic)的特征,也就是同样的数据输入情况下,输出的结果总是一致的,在一个已知的环境下相当确定性符合人类的预期。
何为智能计算?
智能计算是一种基于自然语言能力,以具有学习、理解、分析、问答、交流、记忆、生成、推理等类人类认知智能能力的认知模型为核心的计算范式,智能计算有如下特征:(1)具有探索性 (2)非确定性(non-deterministic,or probabilistic) (3)更高效理解人类意图(4)认知能力至少超出人类的平均水平。
智能计算时代的到来是自然语言处理技术的创新、发展、沉淀从量变到质变的结果。最近5年出现的大语言预训练模型、对话模型、生成模型等自然语言的处理技术的创新,触发了智能计算时代的到来。智能计算的核心是认知智能的能力。
何为AI-First 应用
以认知智能为核心能力开发的应用为AI-First应用,AI-First应用使得应用本身有类人类认知智能的能力,能通过智能助手应用,增强普通人的认知智能能力到更高的水平,让机器、系统、人之间的交互从信息智能提升到认知智能的更高维度。人类数字文明第一次进入到认知智能,发展进入一个崭新的阶段。
AI-First 应用的出色样板:New Bing&Edge Browser
微软发布的New Bing和Edge Browser为未来AI-First应用展示了非常好的样板。
AI-powered copilot -- Edge Browser’s chat&answer
在Edge Browser,AI-powered copilot能与用户持续聊天、咨询、问答、翻译、改写、生成、简单推理;而且copilot在持续关注用户使用网站的交互、返回内容和历史,根据这个上下文自动和用户做智能交互,给用户崭新的体验。
New AI-Native search -- New Bing Search
New Bing的搜索基于下一代LLM、为搜索定制、比ChatGPT更强大,这个模型叫做Prometheus模型。这是一个由下一代AI大模型驱动的 AI-native搜索平台,它提升搜索的相关性、能对答案做注解、提供最新的搜索结果、并提升安全性。
智能计算时代的应用
几乎所有的应用都应该增加copilot或in-place的智能助手,通过人和智能助手的交互,在软件中更高效、更高质量完成目标任务。
应用开发者可以更向前迈一大步,用大模型作为应用的底座,使其成为AI-native的应用,其核心能力提升至认知智能的程度。
认知智能在重新定义软件构建的方式
人类数字文明构建的核心工具是软件开发工具,核心承载平台是软件。软件工业也需要应对变化做变革和升级。每次计算平台发生重大变革和发展,其依赖的软件开发模式、框架、工具链、计算平台的基础设施都会被重构。我们相信,为了更好适应智能计算时代,软件开发的范式也会被重构,可能这次重构的幅度比预期的更大。具体会是什么形态能沉淀下来,还需要让子弹再飞一下。
人工智能下一个前沿
RPA(robotics process automation)、低代码工具、PaaS平台的出现,让软件开发变得更为定制化、普惠化。由于AI 生成模型的发展,像copilot之类的人工智能代码开发辅助工具,今后能够为软件开发工程师提供注释、代码补全生成、语法建议和错误修复等功能,使得开发者能够更加高效地编写代码。
AI-First 应用开发
在开发下一代AI-First应用的过程中所涉及的——在逻辑和交互的开发框架、工具、自动化、数据和认知模型,以及更优化的面向AI-first的runtime,以及关联的基础设施,都有机会被升级和变革。
AI-First cognitive AI架构
即便人类对大脑的认知也是非常原始,不少行业从业者从理论、和工程视角探索下一代的Cognitive AI的架构,更好的支持AI-First应用。
AI-First应用的核心支柱是“认知智能模型”
AI-First应用最核心变化是什么呢?我认为其核心支柱是“认知智能模型”。
脆弱、固化的软件
软件是人类数字文明的平台。但软件是非常脆弱的,软件的业务逻辑和数据模型根据当时的业务需求开发的,随着每次业务需求的变化,软件还需要修改、甚至重构;软件同时又是非常固化的,比如在用户交互层几乎是固化的,不管你是第一次使用、初级用户还是资深用户,都只有一种交互界面,用户有口皆碑优秀体验的软件很少,在2B场景可能更稀缺。
认知智能模型是软件的核心支柱
我认为“认知智能”模型是AI-First应用的back-bone(核心支柱),应用会从数据驱动(Data-Driven)向模型驱动(AI Model-Driven)发展。先假设软件还是3层架构(可能这个也会发生变化):数据层、业务逻辑层、和交互层。
(1)Knowledge Layer
在数字世界中,企业业务的核心资产是数据和知识,这些企业独特的知识和全方位收集的数据都会被聚合并被认知模型捕捉,这个模型是驱动企业业务场景和各种交互场景的核心模型。
(2)Business Layer
未来企业的业务层也会被认知模型所驱动,实现业务逻辑由认知智能驱动,企业逻辑才能更动态自适应、更好适应多变业务需求和多样的用户(包括员工、生态伙伴、最终用户或客户)需求,而不是目前现在的hard-coded、规则定义、甚至只依赖结构化数据的机器学习能力来实现业务逻辑。
(3)Interaction Layer
ChatGPT给我们展示了一个类人类智能的交互界面,智能能力非常惊艳。但交互能力还是非常基础,下一代智能交互会有很多新的想象空间。在认知智能模型驱动下,交互界面、内容、结构更是会从用户意图理解的基础上,动态地、个性化地、智能地去生成和互动。
如果大家认同这个趋势,AI-First应用的软件架构和软件开发的模式和stack发生变革是必然。
认知智能模型也是业务全环节视角的核心支柱
从业务视角,认知智能模型也能赋能甚至作为核心支柱驱动业务全环节,从产品定义设计、生产、营销、服务等全环节用认知智能去提升效率、提升体验、甚至创造新价值。
智能计算时代企业核心竞争是企业独特的认知智能模型
在大数据时代,行业对企业核心竞争力的共识是数据。在智能计算时代,企业的核心差异化竞争力将会是基于企业内部数据的认知智能模型。
AI-First企业应用的核心支柱是认知智能模型,未来企业应用如电商、CRM、EPR、service、HCM等,几乎所有场景都有机会被认知智能模型赋能驱动、甚至重构。
从产品开发、生产、市场、销售、内部管理、产品交付到售后服务、上游供应链,来自于企业经营全环节的信息时代沉淀的所有结构化和非结构化数据,以及从认知智能时代开始积累的企业独特的知识都将成为企业特有的认知智能模型的训练数据。而且企业数字系统、公司内部、与用户和合作伙伴互动过程中产生的反馈数据,也能通过强化学习让企业自有的认知智能模型持续的迭代、升级,模型和使用者或系统的意图更好的对齐。
企业独特的认知智能模型将会是企业品牌、定位、文化、知识、核心能力的完整数字化表达和保存。这可能是一个系列模型,代表了企业各个部门、角色、岗位的认知能力,去赋能甚至代替企业内部各个角色之间的交流、企业和客户、企业和生态合作伙伴的交流和服务;也许是一系列信息系统核心支柱模型,能更好地服务信息系统的认知智能维度的决策能力;也许是个企业培训的虚拟培训师,能持续地in-context、在工作场景中持续培训、指导、能力增强企业员工的模型。
Salesforce最近发布了Salesforce EinsteinGPT,EinsteinGPT是第一个生成AI的CRM模型,AI生成的内容会超级高效地覆盖销售、市场、服务、电商、IT等企业环节。相信任何有竞争力的企业都必须有自己企业独特的认知智能模型,驱动企业方方面面的环节,为员工、客户、合作伙伴提供无以伦比的体验、效率和价值创造。
智能世界和信息世界的融合
从50年代人类发明了第一台电脑起,信息科技的创新并赋能着各行各业,不仅为企业降本增效,而且为企业开拓了新的revenue stream和商业模式,在此发展过程中,信息数字世界创造和沉淀了大量的信息科技基础设施、开发工具、行业应用、数字能力等,如云计算的各种弹性计算的能力编排能力;企业管理软件如CRM、ERP、Service Cloud;各种企业内部和个人的效率、协同办公软件;基于大数据的各种BI、报表、洞察分析软件,企业内部集成和工作流引擎和可视化的编排能力。为了企业内部系统之间、以及和外部生态更高效、更实时的协同,甚至构建了企业数字生态以更好服务其客户,企业内部能力以各种API形式开放给第三方。企业为此投了大量的人力和财力构建这些非常宝贵、极具价值的企业核心竞争力。
随着以认知智能为更高维度的智能计算时代到来,智能世界和信息世界会各取所长并相互融合:
(1)基于认知智能提供了下一代更自然、更智能、更平民化的人-系统智能交互界面
以LLM为基础的对话模型,对语言的理解和生成能力已经具备类人类智能的水平,使得人机进行类似人类自然语言水准和质量的对话变成了可能,这个对话不仅能满足人类更高效挖掘新知识的需求,还可能通过下一代的对话智能模型,以人类最自然的语言交互模式,使得人类和信息世界的各种数字系统和应用自由交流和交互。
(2)更灵活、更开放、更动态、更个性化地去实现企业内部流程和工作方式的重构
数字世界的信息系统接口和界面相对是固化的,但是企业内部流程和工作方式会随着业务、效率的需求在持续变化,企业员工在合适的权限下通过自然语言互动的方式,未来将能够根据业务和个性的需求对企业内部系统、工作流程、数据流进行更灵活、更动态的重构。是未来企业integration、RPA在AI-first理念下的变革。
智能世界类似人的大脑,信息世界类似的人的肢体去和物理世界感知、执行和反馈,智能世界和信息世界是相互想成,才构成一个完整的人类数字文明世界。这两个世界的融合不仅能为企业员工开拓新的体验和价值。这个融合也会发生在个人日常生活、沟通、社交等开放社会的生活场景中,人类的日常生活由此也有崭新的体验和新高度的生命幸福感。
谁会是智能计算时代的英雄豪杰?
PC计算时代造就了微软,互联网计算时代时代造就了谷歌、淘宝,移动互联网时代造就了tiktok/抖音、美团、Uber,云计算时代造就了AWS、salesforce;智能计算时代未来,谁会成为引领这个时代新的英雄豪杰?我们都非常期待。虽然我们现在没法预判是谁,但是我们相信所有的2C和2B的场景在智能计算时代都值得重新被思考、探索、加强甚至重新被打造。