利用专业的数据对不同应用场景的设备智能化提供帮助,这是人工智能时代背景下数据所能发挥的最大作用之一。
人工智能产业中的数据服务环节日趋完善,有报道显示,2019 年,我国人工智能核心产业市场规模达到了105.5亿美元,其中基础服务市场规模约为21.1亿美元,这其中很大一部分是数据服务。
整个市场在多年前就有了对数据服务的需求。随着技术的发展,尤其是近年来我国在人工智能和物联网领域的发力,人机交互的场景变得越来越多,AI设备对数据类型的需求也更加丰富,图像、语音、文本、视频等数据类型都有着巨大的市场需求和训练价值。也正是基于这样的市场情况,昝智创办了北京安捷智合科技有限公司(龙猫数据),并实现了转型。
龙猫数据成立于2014年,是一家专业的AI数据服务公司。龙猫数据坐落于北京中关村科技园,在广州、河北、上海等地设立分支机构,致力于为整个AI产业提供图像、音频、文本、视频等领域的专业数据服务。创始人&CEO昝智毕业于中国人民大学,曾任豌豆荚商业产品负责人、百度商业产品经理,拥有十余年互联网产品设计、管理经验。
2016年,跟随着人工智能的崛起和市场对底层数据的需求,昝智带领龙猫数据实现了转型。如今龙猫数据可以为人工智能设备制造商及研发团队提供定制化的数据采集、标注服务,还可以为客户提供工具部署、BPO外包等个性化服务
人工智能设备的多样化带来了人机交互功能的多样化。以机器视觉为例,摄像头及视觉算法的普及使得人体特征变成了有效的操作信息,大量的人脸识别、五官识别、手势动作识别、肢体关键点识别功能被开发出来,用以完成解锁、认证、美化等任务。而实现这一切需要大量的训练样本。
语音领域也是如此,除了常见的普通话唤醒词之外,应用场景的长尾效应使得AI设备厂商不得不尽力涵盖所有可能出现的语音信息,这一点在语音指令环节尤为重要。
无论是智能音箱、家居、还是车载语音助手,由于使用者的不同,其接收的语音指令往往会出现方言、外语、口音区别,同样一种目的也存在不同说法,如打开空调就有可能出现开空调、温度调高/调低、太冷/热了等近百种方式。
昝智告诉创业邦:“除了语音识别,近年来语音合成领域也出现了越来越多的数据需求,因为只有拥有足够多的音频数据,厂商才能推出风格多样的合成语音产品。”
面对这样的市场环境,龙猫数据在转型之初就打造了“龙猫众包”数据服务平台,通过线上发布任务,建立规范化采集、标注、审核、质检、验收流程的方式完成数据的采集和标注工作。
昝智告诉创业邦:“众包模式看起来简单,但在数据采集、标注领域,杂乱无章的数据是不能为客户所用的,因此我们需要制定详细的采集、脱敏、标注、审核、质检方案,通过完善的流程确保数据安全可用。”
以图像标注为例,采集来的或者客户给到的图片首先需要进行脱敏,然后利用标注平台集成的AI自动标注功能对数据进行机器预标注,之后由标注员完成数据的标注、多轮次审核质检,数据最终流到验收平台由客户进行验收和下载,不合格数据则流回标注池重新标注。整个流程全程可视可控,保证了数据集的产出效率以及合格率。
在谈到数据采集、标注需要大量的劳动力参与的问题时,昝智表示目前的人工智能数据服务虽有各类算法加持进行自动标注,但行业并不能完全脱离人工作业。从本质上来说,AI数据就是从人类社会中提取出来的,人工作业是帮助机器学习人类行为的不可获取的一环。但这并不代表AI数据服务是一个劳动密集型产业。
昝智告诉创业邦:“我们虽然需要大量的人工参与,但这些人绝不是仅凭经验就能完成工作任务,他们需要被培训、被管理、被赋予一定的专业性,且随着行业发展其知识结构需要不断更新,这样才能生产出优质的数据,从这一点来说,我们和劳动密集型产业有着本质的区别。”
龙猫数据在数据采集员和标注员集体中创建了一定数量的公会,对全职、长期的工作人员建立了管理流程和管理细则。同时,利用机器算法,龙猫数据还可以有效分析出某个采集员、标注员适合什么样的任务,并在一定程度上做到任务的指定派发。
“龙猫众包”平台上的用户累计已经超过400万,其中长期核心用户超过2万名。龙猫数据目前拥有近百名在职员工,结合众包平台上的用户,可以为客户提供文本、语音、图像、视频等多种类型、场景下的数据集产品,以及定制化的数据采集、标注服务,并按照数据集使用时长和定制化项目进行收费,年营业额已经达到亿级。
融资方面,龙猫数据在今年初获得了数千万元人民币的Pre-B轮融资,由KIP中国领投,金沙江创投跟投。此前龙猫数据已获得过金沙江创投、九合创投、不惑创投、真顺基金、云天使基金等知名投资机构的多轮融资。昝智表示,最近一轮的融资资金主要用在了技术研发和开拓市场等方面。
本文文章图片来源于龙猫数据,经授权使用。本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。