微软
AI NEXT | 微软黄学东:微软在很多 AI 领域领先 Google
2024-11-01 10:08

AI NEXT | 微软黄学东:微软在很多 AI 领域领先 Google

雷锋网按:本月 18 日,由美中技术与创新协会( of and ,ATI)主办的第一届 “AI NEXT” 大会在西雅图召开。本次会议的主要嘉宾包括:微软首席 AI 科学家邓力,微软院士黄学东,Uber 深度学习负责人 Luming Wang 等。华人之外114信息网MIP移动站,还有亚马逊 Alexa 首席科学家 Nikko Strom,微软小娜架构师 Savas 等业内知名专家。

大会主题是 “探索 AI 的潜力,把 AI 技术应用于实用项目和服务”,对 CV、NLP、智能助手、深度学习框架均做了专题报告。微软首席语音科学家黄学东也发表了演讲,对微软的人工智能业务和进展做了全面的介绍和梳理。雷锋网根据演讲录音和 PPT 整理成文。

雷锋网注: 黄学东于 1993 年加入微软,目前领导微软在美国、德国、埃及、以色列的团队研发研发微软企业人工智能客服对话解决方案 、cris.ai 和 luis.ai 等认知服务、CNTK 开源深度学习工具等人工智能产品和技术。2017 年 2 月,黄学东刚刚被评为 “微软全球技术院士”微软语音助手小娜,这代表着微软技术人员的最高荣誉。

微软的 AI 业务简介

其实,“人工智能( )” 一词最初是在 1956 年 学会上提出的,但是为何一直到如今人工智能技术才步入快速发展的轨道?黄学东认为,主要是两方面的原因:海量的数据,以及计算能力的大幅提升。目前,人工智能主要集中在视觉、语音、语言和知识(图谱)四个领域AI NEXT | 微软黄学东:微软在很多 AI 领域领先 Google,但是未来计算机将能够 理解这个世界。

根据黄学东的介绍, 目前微软的 AI 业务可以分成代理(Agent)、应用()、服务(Service)、基础设施()这四大块。

代理:Cortana(中文名:微软小娜)、微软小冰、Toronto Project(客服助手)

应用:Office 365、 365(整合 CRM 和 ERP 的云服务解决方案)、(输入法)、Pix(拍照软件)

服务 :聊天机器人框架、认知服务( )、Cortana 智能、认知工具包( Toolkit)

基础设施:适用于机器学习的 Azure 、Azure N Series(GPU + FPGA)、FGPA(现场可编程门阵列)

计算机语言技术的发展史

虽然目前神经网络翻译系统还经常闹出各种笑话,但是黄学东认为,在未来几年内,计算机的翻译水平有可能会和目前的语音识别一样,达到人类(专家)的水平。

微软在语音识别领域的成就

黄学东在演讲中提到,微软于 1991 建立了 Lab,该实验室的愿景是让计算机具备 “看(see)、听(listen)、说(speak)” 的能力。1993 年,微软成立语音小组(Speech Group),希望能够让人与设备之间的语音交流成为主流。而如今,这一愿景正在慢慢实现。黄学东在演讲中特别提到了《经济学人》今年 1 月份的封面文章——“Now we're talking”,该文章认为语音技术让计算机不那么令人生畏,而且更易接近。

黄学东称,1993 年的时候,他们做的语音对话识别的词错率 (word error rate,简称 WER) 高达 80%。然而 2016 年 9 月 14 日,由黄学东带领的微软语音团队在产业标准 语音识别基准测试中,实现词错率低至 6.3% 的这一技术突破,这比 IBM 的 6.6% 词错率更低,达到目语音识别领域错误率最低的水平。仅仅一个月后的 10 月 18 日,黄学东团队进一步将词错率降低至 5.9%,首次与专业速记员持平。

这个人类水平的对话语音识别系统用到了 10 个不同的 DNN(深度神经网络)。据雷锋网 (公众号:雷锋网) 了解,其具体实现过程是:首先用包括了 ResNet(残差网络)、LSTM(长短期记忆网络)在内的 6 个不同的神经网络组合并行工作,其结果再通过 4 个新的神经网络组合之后再输出,最终达到专业速记员的水平。

但是黄学东表示,目前计算机的对语音的识别还只停留在转录阶段,想要真正理解语义还非常困难。

微软客服助手 Toronto

黄学东表示,语音技术除了能够用作娱乐用途之外,还能够做很专业的事,比如技术支撑( support)。它在演讲中提到,微软除了语音助手 Cortana 和聊天机器人小冰之外,还有一个代号为 “Toronto” 的客服助手项目。

Toronto 是基于深度强化学习的人工智能,能够理解对话中的上下文,让客服聊天机器人更加人性化、更加高效。

根据 PPT 的介绍,Toronto 不仅能自动回复,给出建议微软语音助手小娜,还能在解答不了时提示用户转接人工服务。此外,它还能帮助人工客服快速了解用户信息,给出回答建议,并可以转接给其他的工作人员,甚至还有录音功能。

当然,黄学东也表示,这些聊天助手和语音识别不一样,并没有一个已经建立起来的有效训练方法( recipe)。

微软在深度学习方面的进展

黄学东此前曾表示,微软的深度学习工具包 CNTK 其实比谷歌的 开源的要早,但是由于一开始 并不是发布在 GitHub 上,所以外界知道的人也更少。但是黄学东表示,根据基准测试的结果,CNTK 比谷歌的 和亚马逊的 MxNet 的性能要更好:相同条件下,CNTK 每秒能够处理的样本更多。

此外,黄学东还列举了 今年 2 月的评测结果,来证明微软在深度学习方面的实力。从图中可以看出,微软认知工具包( Toolkit)v2.0 beta 1 版本在性能、开发的难易程度、以及部署的难易程度这三个方面表现突出,而综合表现仅次于谷歌的 r0.10。

微软认知工具包的优势

目前,微软认知服务的 API 主要包括语言、语音、机器学习、视觉、搜索、知识这几大类。据黄学东介绍,微软的认知工具包有以下三大优势:

点击关键词可查看相关历史文章

●●●

近期热门

特训课程

【本文来源于互联网转载,如侵犯您的权益或不适传播,请邮件通知我们删除】

发表评论
0评