python html5 bootstrap 视频教程

德云社区

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 4309|回复: 0

2016年9月DeepMind利用AI人工智能技术Wavenet 识别自然语言发音

[复制链接]

194

主题

288

帖子

1322

积分

超级版主

Rank: 8Rank: 8

金钱
798
金币
15
威望
0
贡献
0
发表于 2016-9-19 00:25:43 | 显示全部楼层 |阅读模式
AI人工智能 语音助理 人工翻译 教程
2016年9月DeepMind利用AI人工智能技术Wavenet 识别自然语言发音

继2016年初AlphaGo赢了人类棋手后,DeepMind 公司又研制出了能生成模仿人类语音的系统,该系统可让机器说话与人类说话之间的差距缩小50%。DeepMind将这个系统命名为Wavenet。


DeepMind 公司由 Demis Hassabis、Shane Legg 及 Mustafa Suleyman 成立于 2011 年。公司团队设于伦敦,由过去十年中最具代表性的一些科技企业家和投资者所支持。人才招聘要求:希望听到(有机器学习、物理学、神经科学、计算机科学或类似博士学位的)研究科学家、研发工程师(具有较强的数学、统计、编程经验,最好会用 Lua 或 Python)、软件工程师(有使用 C / C ++ 的经验和最好有用 Lua 或 Python 的经验)。


目前,人工智能还停留在有智能没智慧,有智商没情商,会计算不会算计,有专才无通才阶段。能写文章、分析图片、撰写新闻、分析语音、数据挖掘等,不能从事创意性工作,譬如:专业设计师工作、作词作曲、写有意境的散文诗词等。


随着近几年大数据理念与技术的应用与日渐成熟,基于此的人工智能 Artificial Intelligence,简称AI,正步入实际应用、部署阶段。全球各大高技术公司,譬如 bat、Facebook、Google、MicroSoft、IBM、亚马逊、三星、Mac 等,都有实际部署并使用各自研发的最新 AI 技术。且有些技术已部分开源,比如谷歌的全新开源人工智能系统 TensorFlow,亚马逊的智能家居功能定制 Alexa 软件开发工具包 ASK。其它应用包括苹果的 Siri、谷歌的 Google Now、微软的 Cortana、三星的 Otto。


让人能与机器对话一直是人类希望在人工智能领域里实现的目标。但是,目前用计算机生成语音仍然大量地依赖于TTS(文本转语音)拼接技术,譬如:电话语音答录、公交站点报站、计算机读新闻等。在 TTS 过程中,计算机先要记录一个人说话的所有声音片段,并基于此构建一个数据库,之后,经再次结合,形成完整表达。这样一来,在没有记录一个完整数据库的情况下,要修饰声音就会变得很困难(比如,转化到不同的说话者,或转化语音中的情感和语气)。


WaveNet 改变了这点,它直接对原始声音信号的声浪建模,每次可对一个样本进行建模。和生成更加自然的语音一样,使用原始的声波意味着 WaveNet 能对任何音频建模,其中包括音乐。


WaveNet 使用的是全卷积神经网络,当中的卷积层有多个扩张因素,允许它的接收域在深度上呈指数级增长,覆盖数千个时间步长。


DeepMind 公司研究人员称:WaveNet 能知道自己说的是什么。首先,研究人员通过把文本转化成一个语言与声学特征序列(这个序列包含了当下的声音、字母、词汇等),然后,把这一序列喂到 WaveNet 中,从而让模型了解到自己要说什么。


同时,研究人员还指出,如在没有文本序列的情况下训练这一网络,它仍然能生成语音,但是这样的话它需要辨别要说的是什么。测试结果显示,这样一来,WaveNet 结果有点像在说胡话,其中真实的单词会被类似发音的声音打乱。


此外,WaveNet 在有些时候,还可生成如呼吸和嘴部运动这样的非语言声音,这也反映了一个原始的音频模型所拥有的更大自由度。


2015年被谷歌收购后,DeepMind 就获得了使用谷歌数据的权利,这对于他们训练自己的系统意义重大。这次训练 WaveNet 的数据用的就是谷歌 TTS 数据库。DeepMind 还可让系统与谷歌现在最好的 TTS 系统,及与人类使用的 MOS 进行对比。对比结果显示,WaveNet 降低了人类表现与机器表现之间的差异,在英语和中文上都将差距缩小了 50% 以上


训练结束后,研究人员可把网络数据作为样本,产生合成表达,进行取样,然后用到下一步骤的预测中。这样按部就班地建立样品计算成本高昂,但研究人员称,在生成复杂的、逼真的音频上,这至关重要。


彭博社称,目前谷歌还没有推出关于 WaveNets 的任何商业应用,因为它需要巨大的计算能力,训练的音频信号达到每秒 16000 次以上


许多高科技公司会密切关注 DeepMind 的突破。因为语音正成为人类和机器互动中越来越重要的手段。亚马逊、苹果、微软和谷歌都在投资能让用户通过语音进行交互的个人数字助理。谷歌播放的国际总监 "马克·贝内特" 称,使用谷歌移动搜索的,有 20% 是由声音,而不是书面文字完成的。


2016 年谷歌曾对外表示,已使用了 DeepMind 40% 的技术,其中包括帮助减少数据中心的电力需求。以及将 DeepMind 的技术用到 YouTube 和谷歌播放的广告产品服务上。



请关注 "德云社区" 及其微信公众号,了解相关资讯

参考:
AI ── 人工智能 Artificial Intelligence 机器学习 深度学习
2016年9月大数据 机器学习 人工智能使你更穷 加剧贫富差距
Google AlphaGo 之 DeepMind 公司招聘编程语言要求 C/C++ Lua Python
Google AlphaGo之DeepMind创始人Demis Hassabis 谈通用人工智能AGI

版权声明:

本文由 德云社区 整理,原文来自网络。

AI人工智能 语音助理 人工翻译 教程
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|Sitemap|小黑屋|德云社区 |网站地图  

GMT+8, 2024-11-23 07:39 , Processed in 0.065304 second(s), 27 queries .

工业和信息化部: 粤ICP备14079481号-2

技术支持 乐数软件     版权所有 © 2014-2021 德云社区    

快速回复 返回顶部 返回列表