2016年9月DeepMind利用AI人工智能技术Wavenet 识别自然语言发音

liuliuab1 · 发表于 2016-9-19 00:25:43

2016年9月DeepMind利用AI人工智能技术Wavenet 识别自然语言发音

继2016年初AlphaGo赢了人类棋手后，DeepMind 公司又研制出了能生成模仿人类语音的系统，该系统可让机器说话与人类说话之间的差距缩小50%。DeepMind将这个系统命名为Wavenet。

DeepMind 公司由 Demis Hassabis、Shane Legg 及 Mustafa Suleyman 成立于 2011 年。公司团队设于伦敦，由过去十年中最具代表性的一些科技企业家和投资者所支持。人才招聘要求：希望听到（有机器学习、物理学、神经科学、计算机科学或类似博士学位的）研究科学家、研发工程师（具有较强的数学、统计、编程经验，最好会用 Lua 或 Python）、软件工程师（有使用 C / C ++ 的经验和最好有用 Lua 或 Python 的经验）。

目前，人工智能还停留在有智能没智慧，有智商没情商，会计算不会算计，有专才无通才阶段。能写文章、分析图片、撰写新闻、分析语音、数据挖掘等，不能从事创意性工作，譬如：专业设计师工作、作词作曲、写有意境的散文诗词等。

随着近几年大数据理念与技术的应用与日渐成熟，基于此的人工智能 Artificial Intelligence，简称AI，正步入实际应用、部署阶段。全球各大高技术公司，譬如 bat、Facebook、Google、MicroSoft、IBM、亚马逊、三星、Mac 等，都有实际部署并使用各自研发的最新 AI 技术。且有些技术已部分开源，比如谷歌的全新开源人工智能系统 TensorFlow，亚马逊的智能家居功能定制 Alexa 软件开发工具包 ASK。其它应用包括苹果的 Siri、谷歌的 Google Now、微软的 Cortana、三星的 Otto。

让人能与机器对话一直是人类希望在人工智能领域里实现的目标。但是，目前用计算机生成语音仍然大量地依赖于TTS（文本转语音）拼接技术，譬如：电话语音答录、公交站点报站、计算机读新闻等。在 TTS 过程中，计算机先要记录一个人说话的所有声音片段，并基于此构建一个数据库，之后，经再次结合，形成完整表达。这样一来，在没有记录一个完整数据库的情况下，要修饰声音就会变得很困难（比如，转化到不同的说话者，或转化语音中的情感和语气）。

WaveNet 改变了这点，它直接对原始声音信号的声浪建模，每次可对一个样本进行建模。和生成更加自然的语音一样，使用原始的声波意味着 WaveNet 能对任何音频建模，其中包括音乐。

WaveNet 使用的是全卷积神经网络，当中的卷积层有多个扩张因素，允许它的接收域在深度上呈指数级增长，覆盖数千个时间步长。

DeepMind 公司研究人员称：WaveNet 能知道自己说的是什么。首先，研究人员通过把文本转化成一个语言与声学特征序列（这个序列包含了当下的声音、字母、词汇等），然后，把这一序列喂到 WaveNet 中，从而让模型了解到自己要说什么。

同时，研究人员还指出，如在没有文本序列的情况下训练这一网络，它仍然能生成语音，但是这样的话它需要辨别要说的是什么。测试结果显示，这样一来，WaveNet 结果有点像在说胡话，其中真实的单词会被类似发音的声音打乱。

此外，WaveNet 在有些时候，还可生成如呼吸和嘴部运动这样的非语言声音，这也反映了一个原始的音频模型所拥有的更大自由度。

2015年被谷歌收购后，DeepMind 就获得了使用谷歌数据的权利，这对于他们训练自己的系统意义重大。这次训练 WaveNet 的数据用的就是谷歌 TTS 数据库。DeepMind 还可让系统与谷歌现在最好的 TTS 系统，及与人类使用的 MOS 进行对比。对比结果显示，WaveNet 降低了人类表现与机器表现之间的差异，在英语和中文上都将差距缩小了 50% 以上。

训练结束后，研究人员可把网络数据作为样本，产生合成表达，进行取样，然后用到下一步骤的预测中。这样按部就班地建立样品计算成本高昂，但研究人员称，在生成复杂的、逼真的音频上，这至关重要。

彭博社称，目前谷歌还没有推出关于 WaveNets 的任何商业应用，因为它需要巨大的计算能力，训练的音频信号达到每秒 16000 次以上。

许多高科技公司会密切关注 DeepMind 的突破。因为语音正成为人类和机器互动中越来越重要的手段。亚马逊、苹果、微软和谷歌都在投资能让用户通过语音进行交互的个人数字助理。谷歌播放的国际总监 "马克·贝内特" 称，使用谷歌移动搜索的，有 20％是由声音，而不是书面文字完成的。

2016 年谷歌曾对外表示，已使用了 DeepMind 40% 的技术，其中包括帮助减少数据中心的电力需求。以及将 DeepMind 的技术用到 YouTube 和谷歌播放的广告产品服务上。

请关注 "德云社区" 及其微信公众号，了解相关资讯

参考：
AI ── 人工智能 Artificial Intelligence 机器学习深度学习
2016年9月大数据机器学习人工智能使你更穷加剧贫富差距
Google AlphaGo 之 DeepMind 公司招聘编程语言要求 C/C++ Lua Python
Google AlphaGo之DeepMind创始人Demis Hassabis 谈通用人工智能AGI

版权声明：
本文由德云社区整理，原文来自网络。

		自动登录	找回密码
密码			立即注册

2016年9月DeepMind利用AI人工智能技术Wavenet 识别自然语言发音

相关帖子

浏览过的版块