liuliuab1 发表于 2016-9-19 00:25:43

2016年9月DeepMind利用AI人工智能技术Wavenet 识别自然语言发音

2016年9月DeepMind利用AI人工智能技术Wavenet 识别自然语言发音

继2016年初AlphaGo赢了人类棋手后,DeepMind 公司又研制出了能生成模仿人类语音的系统,该系统可让机器说话与人类说话之间的差距缩小50%。DeepMind将这个系统命名为Wavenet。

DeepMind 公司由 Demis Hassabis、Shane Legg 及 Mustafa Suleyman 成立于 2011 年。公司团队设于伦敦,由过去十年中最具代表性的一些科技企业家和投资者所支持。人才招聘要求:希望听到(有机器学习、物理学、神经科学、计算机科学或类似博士学位的)研究科学家、研发工程师(具有较强的数学、统计、编程经验,最好会用 Lua 或 Python)、软件工程师(有使用 C / C ++ 的经验和最好有用 Lua 或 Python 的经验)。
目前,人工智能还停留在有智能没智慧,有智商没情商,会计算不会算计,有专才无通才阶段。能写文章、分析图片、撰写新闻、分析语音、数据挖掘等,不能从事创意性工作,譬如:专业设计师工作、作词作曲、写有意境的散文诗词等。
随着近几年大数据理念与技术的应用与日渐成熟,基于此的人工智能 Artificial Intelligence,简称AI,正步入实际应用、部署阶段。全球各大高技术公司,譬如 bat、Facebook、Google、MicroSoft、IBM、亚马逊、三星、Mac 等,都有实际部署并使用各自研发的最新 AI 技术。且有些技术已部分开源,比如谷歌的全新开源人工智能系统 TensorFlow,亚马逊的智能家居功能定制 Alexa 软件开发工具包 ASK。其它应用包括苹果的 Siri、谷歌的 Google Now、微软的 Cortana、三星的 Otto。
让人能与机器对话一直是人类希望在人工智能领域里实现的目标。但是,目前用计算机生成语音仍然大量地依赖于TTS(文本转语音)拼接技术,譬如:电话语音答录、公交站点报站、计算机读新闻等。在 TTS 过程中,计算机先要记录一个人说话的所有声音片段,并基于此构建一个数据库,之后,经再次结合,形成完整表达。这样一来,在没有记录一个完整数据库的情况下,要修饰声音就会变得很困难(比如,转化到不同的说话者,或转化语音中的情感和语气)。
WaveNet 改变了这点,它直接对原始声音信号的声浪建模,每次可对一个样本进行建模。和生成更加自然的语音一样,使用原始的声波意味着 WaveNet 能对任何音频建模,其中包括音乐。

WaveNet 使用的是全卷积神经网络,当中的卷积层有多个扩张因素,允许它的接收域在深度上呈指数级增长,覆盖数千个时间步长。

DeepMind 公司研究人员称:WaveNet 能知道自己说的是什么。首先,研究人员通过把文本转化成一个语言与声学特征序列(这个序列包含了当下的声音、字母、词汇等),然后,把这一序列喂到 WaveNet 中,从而让模型了解到自己要说什么。
同时,研究人员还指出,如在没有文本序列的情况下训练这一网络,它仍然能生成语音,但是这样的话它需要辨别要说的是什么。测试结果显示,这样一来,WaveNet 结果有点像在说胡话,其中真实的单词会被类似发音的声音打乱。
此外,WaveNet 在有些时候,还可生成如呼吸和嘴部运动这样的非语言声音,这也反映了一个原始的音频模型所拥有的更大自由度。
2015年被谷歌收购后,DeepMind 就获得了使用谷歌数据的权利,这对于他们训练自己的系统意义重大。这次训练 WaveNet 的数据用的就是谷歌 TTS 数据库。DeepMind 还可让系统与谷歌现在最好的 TTS 系统,及与人类使用的 MOS 进行对比。对比结果显示,WaveNet 降低了人类表现与机器表现之间的差异,在英语和中文上都将差距缩小了 50% 以上。

训练结束后,研究人员可把网络数据作为样本,产生合成表达,进行取样,然后用到下一步骤的预测中。这样按部就班地建立样品计算成本高昂,但研究人员称,在生成复杂的、逼真的音频上,这至关重要。

彭博社称,目前谷歌还没有推出关于 WaveNets 的任何商业应用,因为它需要巨大的计算能力,训练的音频信号达到每秒 16000 次以上。
许多高科技公司会密切关注 DeepMind 的突破。因为语音正成为人类和机器互动中越来越重要的手段。亚马逊、苹果、微软和谷歌都在投资能让用户通过语音进行交互的个人数字助理。谷歌播放的国际总监 "马克·贝内特" 称,使用谷歌移动搜索的,有 20% 是由声音,而不是书面文字完成的。
2016 年谷歌曾对外表示,已使用了 DeepMind 40% 的技术,其中包括帮助减少数据中心的电力需求。以及将 DeepMind 的技术用到 YouTube 和谷歌播放的广告产品服务上。
http://forum.digitser.cn/data/attachment/forum/201605/19/132155fevczeyds5e5y1wy.jpg
请关注 "德云社区" 及其微信公众号,了解相关资讯

参考:
AI ── 人工智能 Artificial Intelligence 机器学习 深度学习
2016年9月大数据 机器学习 人工智能使你更穷 加剧贫富差距
Google AlphaGo 之 DeepMind 公司招聘编程语言要求 C/C++ Lua Python
Google AlphaGo之DeepMind创始人Demis Hassabis 谈通用人工智能AGI

版权声明:
本文由 德云社区 整理,原文来自网络。

页: [1]
查看完整版本: 2016年9月DeepMind利用AI人工智能技术Wavenet 识别自然语言发音