2017年,最蹿红的智能硬件单品也许就是智能音箱,它的出现让人们对”声控”作为下一代的交互方式,有了更多信心和兴趣。
与此同时,更多的IoT厂商也期待着尽早接入语音交互,因为上一代接入触摸屏交互的红利,人们还记忆犹新。而囿于麦克风阵列的成本、体积和开发周期,引爆IoT拥有语音交互能力的奇点却姗姗来迟。
语智科技开发的FFASR引擎可以实现无需麦克风阵列的远场语音识别。语智科技最近一次内部测试数据显示,其FFASR远场识别引擎的性能指标突出业内15%以上。
创业邦近日获悉,语智科技已获得晨兴资本和云启资本领投,九合创投跟投的2千万人民币Pre-A轮融资。语智科技创始人兼CEO冯一表示,本轮融资资金将主要用于 识别 引擎和家居产品的持续研发。
晨兴资本合伙人程宇谈到,北大出身的语智科技创始团队有极强的技术实力和学习能力,公司在全栈语音技术和垂直场景应用产品方面取得了很大进展。
虽然冯一并不太想承认,但其确实属于那种“别人家的孩子”,每次考试接近满分,却还说自己不是学霸。在北大读计算机期间,喜欢研究算法的冯一给NOI(全国青少年信息学奥林匹克竞赛)、ICPC(ACM 国际大学生程序设计竞赛)等算法竞赛命题20多道,给自己的简历写上了非常漂亮的一笔。
语智科技创始人兼CEO冯一
毕业后,冯一进入Google,在山景城总部负责Google Assistant的多回合对话系统,曾经帮助NASA设计国际空间站旋转系统,将太阳能发电量提高了1.5%。
由于对数学和算法有着天生的执念,加上在Google Assistant的工作经历,打算回国创业的冯一希望通过专门为远场语音识别开发一款引擎,来让众多体积小、结构扁平的智能产品,在不适合用麦克风阵列的情况下也能有被用户“声控”的解决方案。
冯一坦言,团队初创时并没有把主要的开发精力倾斜在远场语音识别,彼时,语智科技希望寻找到一个性能好、成本适合的远场声学处理的解决方案,用来支持其他的开发项目,但最终都没有找到真正满意的方案。
与此同时,冯一曾经早年参加算法竞赛相识、一同保送北大的同学们,陆续在声学、深度学习算法、数学等多个领域初有建树。能同时聚集在语音识别紧密相关的多个领域,有着北大优秀科研和项目能力的同学,这成为冯一与语智科技在日后一年技术快速进步的重要原因。
语智科技首先对声学降噪需要解决的三个干扰问题——噪声、混响、干涉进行了精确的数学建模,并设计更深层的神经网络来对干扰进行降噪。
而为了能够同时处理前端声学降噪和语音识别,语智科技远场语音识别(FFASR)算法又将CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)进行了深度整合,搭建了更复杂的深度学习网络,并将网络分成很多部分,用以处理不同的任务。
这样的神经网络还需要更适配和先进的训练平台,语智科技独立设计了的训练平台,替代通常使用的Kaldi ASR进行网络结构训练。目前,拥有独立设计训练平台能力的公司还屈指可数,而语智科技凭借团队的力量,为了远场语音识别(FFASR)的最终表现,进行了”端到端”(End-to-End)完整的开发。
在获得创业邦天使轮投资之后的一年,语智科技即将把自己的远场语音识别引擎开放给开发者使用。
对于智能硬件厂商来说,使用麦克风阵列的语音识别方案,意味着额外的物料成本及开发成本,而且对于电视这样竖向、扁平的硬件以及某些小型硬件来说,并没有多余的空间和合适的位置留给麦克风阵列。
语智科技的FFASR则大幅降低设备实现“语音交互”的入场门槛,使各类IoT设备摆脱目前实现远场语音识别需要复杂麦克风阵列的局限。
据悉,语智科技还致力于语音技术与智能家居的整合,其语音全屋智能解决方案“语家HomeAI”已落地于北京中关村SOHO,采用分布式拾音技术,与家庭设备进行底层联动,实现语音AI对家庭设备的控制。
而该领域也被另外此次Pre-A轮投资的另一家领投方云启创投看好,云启资本执行董事陈昱表示,“语智团队利用端到端的语音识别模型,很好地解决了远场语音识别率低的问题,同时,团队用人工智能给智能家居带来的体验将会收获良好的市场反馈。”