AI语音真假面：小心了！你的「声音DNA」可能会被复制

努力码稿的小浪·2019-06-14

技术和伦理，道德与商业。

编者按：本文转自新浪科技，作者杨雪梅，创业邦经授权转载。

如果有一种技术可以一秒复制或模仿你讲话，你会感到惊喜还是惊恐？

进入2019年，AI技术的应用落地越来越多样化。科大讯飞、搜狗等技术公司相继发布了语音合成技术的应用。通过AI手段，用户可以一秒变声社会名人或者其他想模仿的声音。

互联网技术在悄无声息地改变我们的生活，对人工智能企业来说，语音识别技术的广泛应用已不是难事。但背后的伦理道德和安全隐患，或将成为伴随AI技术发展不容忽视的一个问题。

实时变声技术受AI公司热捧一秒可换声

“嗨，大家好，今天非常开心，来到科大讯飞新品发布会，一直好喜欢科大讯飞哦……”

这是发生在科大讯飞2019新品发布会上的一幕，科大讯飞董事长刘庆峰通过技术，现场模拟了单田芳、林志玲和罗永浩的声音来做开场白。尤其当罗永浩声音响起的时候，不少人以为老罗到了现场。

“你看到的是刘庆峰，但听到的是老罗的声音。”台上的刘庆峰表示，这是公司最新的实时变声技术。据悉，这项新的语音合成技术只需要1分钟的声音样本，就可以模仿任何人说话。

不止科大讯飞，也是在近期，搜狗CEO王小川在一场大会上展示了搜狗变声功能，通过手机软件，王小川模拟了高晓松和东北妹子的声音，引得现场连连发笑。他随后展示了歌曲中的声音替换，据介绍，系统先用14分钟对他的语音做了训练，然后把音色做迁移。

这是搜狗最新的语音合成技术，可以实现把任何人的声音转化成特定声音，秒变林志玲、马云的声音都可以。王小川表示，这不只是一个简单的语音合成，可以把语音语调情感做迁移。

目前，在搜狗输入法中，用户可以将自己的声音自由变换成喜欢的声音，在微信、QQ、陌陌等主要社交场景均可使用。搜狗提供了明星、卡通人物、游戏 IP、方言等几个类别供19种特定声音。

▲王小川

其实，语音合成早就不是新技术，之前，我们见到更多的是将文字转化为声音，比如在导航、转写、智能音箱、Siri等智能语音助手等方面的应用，并不是真人在说话。

今年，很多AI公司发力语音合成在变声、语音cos等场景下的应用，将真人发出的声音转化成特定声音。

百度也有相关技术的落地应用，今年5月初，在中央电视台公益节目《等着我》中，百度大脑基于智能语音技术，合成了已故老兵的声音，帮助分别64年的老战友实现“重逢”。

据介绍，该技术使用百度端到端语音风格分离和建模方案，使用多组神经网络对语音的不同维度，例如音色、情感、风格等，进行独立的编码建模，从而指导最终合成。

这些AI技术落地应用的背后，一方面体现了AI技术应用的进展，和为社会带来的普惠价值理念。比如搜狗将语音变声技术、AI合成主播技术等与行业结合，在媒体、教育、内容制作、旅游等场景结合，将会带来更大的价值想象空间。

另一方面，未来可能存在的技术漏洞、技术滥用等风险也不容忽视。有网友就指出“小心被用于电信诈骗”“以后可能会收到‘马云’的电话”……

一音频领域业内人士认为，对于音频作为交互方式的工具型产品应该是有用的，但对于音频作为内容载体的线上音频平台，正面意义有待观察。

因此，对企业来说，在不断寻求技术突破和商业价值的同时，也应该树立对技术安全的责任心。

语音合成技术在实操层面还有非常多的硬伤

据了解，逼真的语音合成技术，背后是神经网络和机器学习的支持。神经网络模拟电信号在人脑神经元之间的传递过程，对输入数据进行处理，它利用分层的神经元，从大量样本数据中总结出共同特征。

语音合成技术在商业化落地方面，可见的在诸如语音交互、有声读物、新媒体、智能客服、泛娱乐等领域被应用。

在接受新浪科技采访时，蜻蜓FM大教育品类负责人牛森表示，语音合成技术在音频领域会大大降低文字内容转向音频的人员、时间和经济成本。

在谈到语音cos时，牛森指出，这件事在实操层面有非常多的硬伤，比如合成后的音频与真实的人声在情绪和情感表达上肯定是做不到完全一致的。

他表示，对于音频用户来说，同样的内容，读稿和讲述的收听体验会有很大区别，只有最真实的人声才能引发深刻的情感共鸣，也是音频的价值所在。

而在道德和安全层面上，牛森认为，首先要从技术上对人声和合成音进行筛选确认，从权利上需要明确版权链条，任何未经授权的合成音频属于侵权违法行为，“作为平台方我们会进行严格的版权和品质把控”。

据了解，在一些音频平台上，语音合成技术主要用于儿童类节目，其他的内容上，AI模拟效果没那么好，尚未被广泛应用。

对于语音合成存在的安全隐患，在发布了变声技术后，刘庆峰现场曾强调：人工智能要持续发展，最核心的是它的价值观如何阳光健康与人为善，所以像变声技术这样一个黑科技，我们显然是不会轻易在各种App中对外开放的，一定是要有一种健康、安全又有趣的方式来跟这个世界来对接。

此前，刘庆峰还提到，人工智能领域要技术合作，更要法律伦理的合作。

对于安全问题，搜狗公司向新浪科技表示，“技术是一柄双刃剑，可以用来造福也可能带来灾难，搜狗坚守科技向善。变声技术是当下人工智能的前沿应用，基于语音表征学习、迁移学习技术，可以将任何人的声音转换成特定人的声音(One)。搜狗在这方面取得突破，率先进入实用阶段。这项技术还可以应用到影视配音，家人陪伴等场景中帮助人们提升工作效率和生活幸福感。”

搜狗透露，为了保证这项技术不被有心之人滥用，公司作了严格的管理和限制：

1、搜狗不向第三方输出变声技术，确保该技术的可控性和安全性。

2、变声功能的所有目标音色都由搜狗定义，不支持用户随意模仿。

3、变声后的声音在微信、QQ等App中使用，不能转发复制，能够做到对发送者追踪溯源。

此前，王小川在媒体采访中也提到过人工智能立法：在当前人工智能发展的阶段，尽快根据技术发展不断调整和完善，是应对人工智能所带来的法律和伦理风险最为切实的手段。

不过，目前技术的发展仍然是走在伦理、法律的前面。周鸿祎曾在今年5月份的世界智能大会上提到过，在AI领域，如果没有人文的思考，可能设计出来的系统就是一个悲剧。

AI技术背后的人文思考

其实，AI技术背后的“以假乱真”现象不只出现在声音领域，近日三星的一项技术应用也引起人们的注意。

据外媒报道，三星位于莫斯科的人工智能实验室研究人员，基于大量动图和视频素材，以及“深度卷积神经网络”训练，通过AI技术准确识别某些面部特征，可以将静止图像变为动图甚至视频。

在实验中，研究人员以爱因斯坦、玛丽莲·梦露甚至蒙娜丽莎的静止图像为基础，分别生成了他们正在说话的视频，不过目前视频质量较低。

也就是说，未来随着AI图像生成技术的进步，可以仅仅通过一张照片就能生成虚假视频。

在此之前，AI换脸也曾在社交媒体上引起热议。有人将94版《射雕英雄传》里朱茵扮演的黄蓉换上了杨幂的脸，网友直呼“毫无违和”“以假乱真”，甚至调侃“老剧新拍最省成本的方式”。