每个人都想拥有一台属于自己的专属机器人。如果只需要录制几段话,你就可以定制一款和自己声音一样的机器人,想不想要?
这项技术来自我两年前创立的公司——猎户星空。只需10段话,猎户星空的TTS技术就可复制一个人的声音。
我的同事用猎户TTS技术复制了一个我的声音。你们感受一下?(创业邦注:由于视频无法播放,请自行搜索观看)
视频来自傅盛抖音号@陪你搬砖的傅盛
欢迎搜索抖音号:fstalk关注喔~
或许,大家对这项技术还不是很了解,也不了解行业其他人做的如何?以及猎户有什么不一样?下面我分享几点看法:
1.首先,何谓TTS技术?
我曾经有一个观点,语音交互将会是继键盘输入,触摸屏之后的又一革命性的交互方式。语音交互将成为未来人机交互的主要方式,而TTS就是语音交互时代的产品界面。用户记住一款产品,除了功能,就是界面,所以猎户在创立之初,就高度重视TTS技术的自研和产品创新。
简单概括,人与机器的语音交互方式分为两种:一种是机器能听懂人说什么,即“语音识别”;另一种是机器能开口说话,即“语音合成”(TTS,Text-To-Speech),也就是将文字转为声音,类似于人类的嘴巴。比如语音助手、智能音箱、服务机器人等,也就是你生活中会用到的Siri和导航中的志玲姐姐等等。
现在,猎户星空的TTS采用了业界最新的深度神经网络端到端的语音合成技术,在此基础上,训练了大语料库的语音库作为基础模型,只需录制10段话,提取出真人发音的特征后,通过Adapt自适应模型,建模发音人的发音特征,最后通过world声码器合成出与真人的发音、音色相同的语音。
目前,该技术只有微软,科大讯飞官方推出应用。不久,我们的官方应用也会上线,用户只需录制10段话,就可快速复刻属于自己的AI声音。
2.与同行相比,猎户星空家的TTS技术有什么不一样吗?
其实,当下行业各家公司的TTS产品效果差不多,均可达到在特定场景商用的效果。但,与真人发音有一定差距,用户在听感上还是会有机械感。
如果用户留心会发现,这些机器人虽然能自然对话,但听起来,你仍然会觉得它就是一个有点机械的、冰冷的机器人。
也因此,如何给用户更自然、更舒服、更像人声的对话体验?怎样更好地将TTS技术产品化?这是我跟猎户星空的产品技术同学一直思考的问题。我不希望——他们因为盲目迷恋技术,而忽略了“用户体验才是产品的核心”。我给他们定了一个目标——要让猎户的TTS成为这个星球最温暖的AI声音。
为此,当猎户TTS第一次以小雅智能音箱里的“小雅”面向用户时,我们就付出了很多努力,并在猎户TTS的打磨上花了很多心血。
首先,严格把关声音训练样本。我们不仅会考虑声音本身好听,录音中的语气、语调、发音标准上都要严格把控,保证极致的完成,达到还原最好的声音效果。
其次,在技术的实现上,为了让小雅的声音更有情感,我们没有用最先进省力的技术,而是真正从用户角度出发,从声音效果和体验出发,选择了拼接法(TTS主流技术实现主要有两种:拼接法和参数法,前者相比后者,需要的数据量更大,且消耗的人力物力和周期更长,成本也更高)。
其中,最难的是中英文混合TTS。因为,一般的合成中,中文录音是一批人,英文录音又是另一批人。两种语言结合起来,再用机器学习去学,出来的声音就会很奇怪。
后来,费尽千辛万苦,我们终于找到了一个能够和中文发音很像的女孩子,录了很多英语声音样本。所有这一切努力,只为了让用户在体验上感受不到差别,始终能给用户一致的、温暖的对话体验。
欣慰的是,猎户TTS一经推出,就在业界广受好评。也基于此,我们继续打磨了最萌童声。现在,除了成人女声外,猎户TTS也能提供最温暖最萌的童声体验。
有时,别人老问,你们猎户星空的TTS声音为啥能有这样的效果?技术本身的积累和突破是非常重要的部分;当大家技术水平都在差不多的量级时,更多的功夫还体现在对用户和产品的理解,以及对细节的严苛打磨。我们的优势就在于此——团队多年积累的互联网产品基因,以及对用户体验的极度重视和极致打磨。
3.最后,秀秀肌肉吧,其实也是我们过去取得的一点点成绩:)
两年时间,猎户星空的语音技术已经遍地开花,分别接入小米小爱同学、喜马拉雅小雅音箱、美的小美AI音箱、猎豹AI音箱等智能AI产品中,累计激活设备超过3000万,每天线上语音指令超过2000万次,拥有上百万小时远场语音数据积累。
还是可以当之无愧地说,猎户星空的语音交互技术(包括TTS),支撑起了中国智能音箱市场的大半壁江山:)事实上,猎户语音OS技术在中国智能音箱市场上占有的市场份额已经超过30%。
不久前,中国人工智能产业发展联盟(AIIA)公布了国内智能音箱智能化评级结果,猎豹的小豹AI音箱与小米、喜马拉雅、百度和京东的四款智能音箱成为“五强”。五强中,我们占了三强。其中三款音箱分别为——小豹AI音箱、小雅音箱和小米智能音箱,都使用了猎户星空的TTS技术。
就在一周前,华为发布首款智能音箱,这款音箱也采用了猎户星空的语音合成技术。
PS:锤子新品发布会上,罗永浩也将发布使用猎户星空TTS技术的新产品。猜猜会是什么?