ALL IN AI的新时代,如何实现数据价值?

关注
数据是人工智能的核心要素,新时代下数据的价值链重塑需要政府的引导和新模式的探索。

2024年12月13日,由北京市通州区人民政府主办,通州区经济和信息化局、通州区台湖镇人民政府承办的2024 ADD数据应用场景大会成功举办。通州区发展和改革委员会、通州区政务服务和数据局、通州区投资促进中心、通州区人才工作局、创业邦为本次大会协办单位。

大会汇聚了众多优秀数据应用创新项目、科技企业、研究院所以及投资机构,共同探讨数据价值的实现路径。在圆桌论坛《ALL IN AI的新时代,如何实现数据价值?》中,标贝科技联合创始人、CTO李秀林,整数智能创始人兼CEO林群书,悦数科技CTO叶小萌,加和科技CEO尹子杰,恒生聚源生态合作部总经理鲍美娜,云遥宇航高级副总裁欧波,达观数据华北区总经理徐红展开思想碰撞,精彩观点如下:

标贝科技联合创始人、CTO李秀林:数据是人工智能三要素的核心要素之一,只有提供高质量、可靠、安全的数据,才能推动人工智能技术的发展和落地。

整数智能创始人兼CEO林群书:在生成式人工智能时代,数据清洗变得愈加重要,只有高质量数据才会有更好的人工智能算法。

悦数科技CTO叶小萌:大模型的应用不仅限于公域数据,大模型结合知识图谱,能释放出更多私域数据价值。

加和科技CEO尹子杰:AI大模型让营销领域C端数据得以深度挖掘和高效利用,实现数据可用不可见,让营销知识跨越业务环节流通,将智能化判断从主动查询转变为动态接收

恒生聚源生态合作部总经理鲍美娜:人工智能已转变为金融行业的基础设施,它极大地减轻了我们在重复性劳动上的负担,从而为从事更具创造性的工作提供了广阔空间,并显著扩展了金融的服务半径。

云遥宇航高级副总裁欧波:在商业航天领域,气象大模型的应用非常广,再分析数据是气象大数据重要的发力点。

达观数据华北区总经理徐红:大模型技术的应用极大地提高了工程项目的效率,减少了对业务专家的依赖,加快了项目的推进速度。

image.gif

以下是圆桌论坛的问答实录,经创业邦整理后发布:

刘恒涛(主持):两年数据产业正在经历巨变,各位不同领域如何感受这些变化

欧波:云遥宇航已成功从商业航天企业转型为数字型服务企业,承担着数据生产者、应用者以及数据产业服务者的多重角色。在数据生产方面,公司从最初的载荷研制发展至卫星发射,积累了丰富的数据资源。在数据应用层面,云遥宇航构建了自有的气象模型,并在气象领域及其服务领域实现了更为深入的技术应用。在服务提供方面,公司目前主要集中于新能源和远洋导航气象服务,并计划将服务范围扩展至交通领域。

李秀林:尽管近年来政策、市场和环境发生了显著变化,但提供高质量、可靠且安全的数据始终是我们的核心任务。为了实现这一目标,我们在数据中心建立了安全室,并采取了包括物理隔离、网络隔离和平台权限管理在内的多项措施,以确保数据的安全性和可控性。我深信,只要我们持续提供高质量的数据,就能不断推动人工智能技术的进步和实际应用。

林群书:随着高质量数据需求的日益增长,不同人对高质量数据的定义各异。特别是在大模型时代,如何进行后训练(post training)以及哪些数据能够提升模型效果,是目前业界普遍缺乏经验的领域。作为一家专注于AI数据的公司,我们认识到传统的数据处理和标注已不足以满足大模型时代的需求。因此,我们在全球范围内发起了2077AI开源数据基金会,初期投入资金支持前沿数据制作。我们的目标是资助智能驾驶等其他城市领域的最前沿研究人员或工程师,以推动全球范围内最优秀的科研人员进行探索和创新。

叶小萌作为一家基础技术公司,我们的角色不在于生成或直接使用数据,而是提供数据存储解决方案以及分析工具,帮助用户发现数据间的关联性。当前,图数据库的概念已广为人知,市场对数据的看法已经从单纯的基于BI的海量数据统计分析,转变为更加关注数据间的内在联系和关联性。我注意到,市场对数据深层次价值的认识和应用正在不断深化,图数据库市场的快速增长便是这一趋势的明证。

尹子杰:数据这两年的变化可以概述为四个方面。首先,行业规范化,大数据的使用场景和获取上逐渐有了明确的规范,如我们与信通院共同发布了营销系统行业标准。其次,中国市场在数字化营销方面成为全球标杆,例如我们与全球美妆零售机构合作,助力他们在中国区实现线上与线下的融合。客户继而也将这一模式推广至全球。。第三,跨域数据融合,过去各个平台存在数据的“花园壁垒”,现在已经能够实现跨域数据打通,包括线上渠道之间、线上与线下数据的融合。最后,企业内部数据整合趋向集中,越来越多的企业开始按照事业部的模式进行整合。这种转变使得数据能够在企业内部更高效地流转和利用,从而提升整体的数据价值创造能力

鲍美娜:金融行业在数据应用方面历史悠久,从信鸽到电子平台,数据获取方式不断进步。当前,行业面临的挑战已从数据获取转变为数据的深度挖掘和知识提取。大模型技术在此过程中提升了数据处理能力。未来,金融行业将重点探索非公开数据的规范化处理,以辅助业务发展。

徐红:经过多年在智能文本处理领域深耕,我们经历了从初期客户对人工智能应用的探索到如今大模型技术全面升级的转变。目前,达观的企业级知识管理系统、文档智能审阅系统、搜索推荐引擎等已广泛应用于财务、政务和法律等多个场景,通过智能化手段提升业务流程效率,并整合专家知识库。当前,市场对专业数据的要求越来越多,这也会是我们以后重点加码的方向。

刘恒涛(主持)生成式AI的快速发展为企业带来了哪些新的机遇和挑战?

叶小萌:随着大模型技术的兴起,我们面临将知识图谱与大模型结合的机遇与挑战。大模型虽然强大,但其训练主要依赖公域数据,而企业需要的是私域数据的深度整合。我们提出了将知识图谱与大模型结合的概念,旨在实现利用大模型帮助理解和挖掘私域数据的内在关联,以及借助大模型减轻构建知识图谱的工作量。此外,大模型还能帮助洞察数据间的复杂关联,通常这需要专家的知识和经验。

尹子杰:我从2022年开始有深度体会,大模型技术在营销领域加速了以往难以实现的目标。以具体案例为例子,一位负责湖南区域线下销售的经理虽然掌握经销商进货和促销数据,但更希望了解,在社交媒体上,湖南地区的消费者对他们上百个SKU中哪些产品更感兴趣,以便加强重点终端的跟进。然而,由于数据安全边界、知识边界和企业资源的限制,这些需求在大企业中难以实现。但在大模型时代,这些问题可以解决,通过AI我们可以实现数据可用不可见、让知识跨越业务环节流通,以及将智能化判断从主动查询转变为动态接收

鲍美娜:人工智能已成为金融行业的基础设施,技术的进步,特别是从大模型到多模态的演变,以及从推理到生成的转变,为行业带来了质的飞跃。在数据生产加工方面,大模型已经开始替代传统的数据生产、加工、保护和清洗工作,例如在财报中抽取结构化数据,以及从海量新闻资讯中提取关键舆情,大幅度降低了人力成本。从服务客户的角度来看,作为数据提供商,大模型使得研究人员能够通过简单的对话快速从大量研报中提取所需内容。

徐红:大模型技术的应用显著提升了软件工程项目的效率。过去,项目依赖业务专家的大量指导,这限制了项目的推进速度。现在,通过将专家知识整合到智能知识库中,我们能够通过智能问答系统快速检索信息,并辅助企业进行文本生成和决策。例如,在撰写投标文件时,大模型能够自动生成固定格式的文本,而在编程工作中,大模型也能实现自动编程,为开发人员节省了大量时间。同时,大模型减少了业务专家的参与需求,使得项目更容易落地,推进速度加快。

林群书随着技术的发展,数据处理方式经历了显著变化。在判别式人工智能时代,重点在于数据标注的准确率;而在生成式人工智能时代,数据清洗变得至关重要。例如,OpenAI的Sora发布会上,未彻底清洗训练数据中的水印和字幕导致问题。北美的大模型公司在数据清洗上投入了大量时间,工程师的大部分工作不是训练模型,而是清洗数据。在生成式人工智能的背后,如何有效地清洗数据、对齐和收集数据,以及如何利用人类反馈进行强化,成为了技术浪潮中基础设施变化的关键。

李秀林:大模型的发展对数据行业提出了新的需求,尤其是在数据规模、质量保证和行业特定数据的处理上。数据规模的增长要求强大的清洗和加工能力,以满足大模型训练的高标准。同时,大模型正向行业特定应用发展,这对数据的种类和来源提出了新要求,增加了获取和加工数据的难度,提升了对专业人员的需求。对数据解决方案的需求增加,标贝也是结合自身的技术实践,在不断推出数据解决方案,来服务客户。

欧波:气象大模型技术在行业内应用广泛,但基础数据源主要依赖国外。我们正与中国气象局合作,致力于国内再分析数据集的构建,加强本土数据基础。此外,跨行业案例,如口香糖销量下降与微信使用的关联,展示了大模型在揭示不同领域间联系的潜力。我们希望与更多大数据和AI技术的从业者合作,突破行业边界,探索新的服务模式,这是AI大模型的优势所在。

刘恒涛(主持):台湖作为数据要素产业的试验田,也在探索为企业提供一些支持,各位作为从业者,对台湖的数据先行区有哪些建议和寄语?

叶小萌:数据资产因其无形性,在产品化和知识产权保护方面面临特殊挑战,这直接关系到数据能否在行业内被有效使用和定价。期望台湖在数据资产的保护和利用上取得突破,为行业树立标杆。

林群书:针对当前对数据的迫切需求,特别是在具身智能等领域,我觉得可以先聚焦于数据相关的产业基地建设,如数据标注等,以推动数据产业的深入发展,并在此过程中实现更多创新。

李秀林:数据是人工智能的核心要素,新时代下数据的价值链重塑需要政府的引导和新模式的探索。从数据源到加工处理,整个链条的优化将释放数据的巨大潜力,希望台湖能成为这一变革的示范。

欧波:对于台湖数据产业的导向表示感谢,期望业务链上的企业能形成合作,共同面对数据升级和产业发展的挑战,实现资源共享和协同发展。

尹子杰:政府在数据合规和细节处理上的作用不可或缺,特别是在大数据启动仪式上所见,公检法的参与对于数据的合规使用至关重要。期待台湖作为北京数据基础制度先行区在实操业务上能得到更具体的指导和支持。

鲍美娜:数据要素是数字经济的重要组成部分,跨产业、跨主体、跨场景的数据标准化和流通是关键。期待政府加速布局,确保数据安全,推动数据的商业化和技术流通,希望台湖能成为全国数据产业的领先地区。

徐红:在数据安全政策的制定中,应兼顾数据共享和流转的效率。同时,鉴于许多核心数据掌握在专家手中,我们可以出台数据价值评估和定价标准,促进高质量数据的公平交易,推动数据要素的充分利用和未来发展。

反馈
联系我们
推荐订阅