微软谈人工智能语音识别误差率12% 可提供语音理解智能服务

baidu · 发表于 2015-6-23 18:05:28

微软谈人工智能语音识别误差率12% 可提供语音理解智能服务

实际上人类目前对人工智能的研究，和过去任何时代一样，是人类不断拓展自己的能力、寻找工具的探索。

“人工智能会不会在未来五年、十年就把人类替代了？”在人工智能研究快速发展的今天，这样的问题不断被人提出，但在微软全球执行副总裁、计算机视觉和图形学领域顶尖专家沈向洋看来，这个问题从一开始就问错了。

“我说这个问题都问错了，人工智能也好，计算机也好，或者是以前的石器时代也好，人类发展是不断的在寻找所谓的工具。不断的有了这些新的技术，是在令人类的能力更加的强，我自己是持这样的态度。”

18日，沈向洋在位于微软总部贝尔维尤的一处办公楼内接受腾讯科技采访，畅谈了他对于人工智能研究领域的理解。

“最典型的应用是我们有两个程序员写了How old .net，那件事情一下子火的不得了，现在上传数据差不多有6亿张图片，非常有趣。”微软全球执行副总裁沈向洋笑着说道。

上传一张肖像照片，系统立即就能告诉你这个人的年龄，这就是前一段时间火爆的应用“How-old”能实现的具体功能，这个微软出品并遇到无数好评和骂声的应用，实际上便是人工智能的具体应用。

沈向洋认为，人工智能现在正处于“激动人心”的发展阶段，最近发展得“非常迅猛”，包括研究机构、大学、大公司都在进行这方面的研究，也受到风投的密切关注。

他提出，人工智能领域取得了一些“突破性的进展，主要表现在两个领域，一是语音识别，另一个是视觉识别。

在语音识别方面，沈向洋说，“语音识别业界已经做了四、五十年，但语音识别最大的问题是误差率一直降不下来。”

“语音识别如果在一般的场景下，比如在一个房间里，一般的人听语音大概误差率在8%，这么多年下来它是一直下不来。最近有了突破的发展，就是深度学习，用很多层的人工网络去做大数据，大训练，做到这样，所以最近语音误差率降的非常快。”沈向洋说。

他指出，目前语音识别的误差率（实验室环境）已经降到12%左右，而微软的预测是五年之内误差率可以达到人类的水平。

他认为，在语音识别领域，目前微软、谷歌(微博)和IBM三家公司处于领先地位。

在视觉识别方面，沈向洋认为，目前的发展也非常迅速，上述提到的“How-old.net”便是一个具体的例子。

他提出，微软目前所提出的“移动为先、云为先”的战略，实际上给更广泛的人群进行人工智能的研究和应用开发也提供了很好的基础。

“微软的目标是打造全球最大的云，这个云还不是一般的云，是智能云。”沈向洋说。

微软在今年4月份发布了Project Oxford（牛津计划），便通过微软的Azure云服务，向开发者提供API和SDK工具包，让开发者可以使用微软的自然数据理解能力，为自己的解决方案增加智能服务。这些工具包包括人脸识别、语音识别、计算机视觉和语音理解智能服务。

对于开发者来说，如果想从事一些语音或者语言识别，或者做一些图像识别的应用，可以从“云端”API获取相应的内容。

但沈向洋同时提醒说，在人工智能领域，虽然部分领域发展很快，但还是有更多的领域并没有像语音和视觉识别发展的那么快，例如可推广性方面、规划方面等。

他认为，实际上人类目前对人工智能的研究，和过去任何时代一样，是人类不断拓展自己的能力、寻找工具的探索。

“不断地拥有这些技术和工具之后，实际上是对人类能力的一种增强。”沈向洋说。

版权声明：
本文由德云社区整理，原文来自网络。

		自动登录	找回密码
密码			立即注册

微软谈人工智能 语音识别误差率12% 可提供语音理解智能服务