AI NEXT | 微软黄学东：微软在很多 AI 领域领先 Google

AI NEXT | 微软黄学东：微软在很多 AI 领域领先 Google

2024-11-01 10:08

AI NEXT | 微软黄学东：微软在很多 AI 领域领先 Google

雷锋网按：本月 18 日，由美中技术与创新协会（ of and ，ATI）主办的第一届 “AI NEXT” 大会在西雅图召开。本次会议的主要嘉宾包括：微软首席 AI 科学家邓力，微软院士黄学东，Uber 深度学习负责人 Luming Wang 等。华人之外114信息网MIP移动站，还有亚马逊 Alexa 首席科学家 Nikko Strom，微软小娜架构师 Savas 等业内知名专家。

大会主题是 “探索 AI 的潜力，把 AI 技术应用于实用项目和服务”，对 CV、NLP、智能助手、深度学习框架均做了专题报告。微软首席语音科学家黄学东也发表了演讲，对微软的人工智能业务和进展做了全面的介绍和梳理。雷锋网根据演讲录音和 PPT 整理成文。

雷锋网注：黄学东于 1993 年加入微软，目前领导微软在美国、德国、埃及、以色列的团队研发研发微软企业人工智能客服对话解决方案、cris.ai 和 luis.ai 等认知服务、CNTK 开源深度学习工具等人工智能产品和技术。2017 年 2 月，黄学东刚刚被评为 “微软全球技术院士”微软语音助手小娜，这代表着微软技术人员的最高荣誉。

微软的 AI 业务简介

其实，“人工智能（）” 一词最初是在 1956 年学会上提出的，但是为何一直到如今人工智能技术才步入快速发展的轨道？黄学东认为，主要是两方面的原因：海量的数据，以及计算能力的大幅提升。目前，人工智能主要集中在视觉、语音、语言和知识（图谱）四个领域AI NEXT | 微软黄学东：微软在很多 AI 领域领先 Google，但是未来计算机将能够理解这个世界。

根据黄学东的介绍，目前微软的 AI 业务可以分成代理（Agent）、应用（）、服务（Service）、基础设施（）这四大块。

代理：Cortana（中文名：微软小娜）、微软小冰、Toronto Project（客服助手）

应用：Office 365、 365（整合 CRM 和 ERP 的云服务解决方案）、（输入法）、Pix（拍照软件）

服务：聊天机器人框架、认知服务（）、Cortana 智能、认知工具包（ Toolkit）

基础设施：适用于机器学习的 Azure 、Azure N Series（GPU + FPGA）、FGPA（现场可编程门阵列）

计算机语言技术的发展史

虽然目前神经网络翻译系统还经常闹出各种笑话，但是黄学东认为，在未来几年内，计算机的翻译水平有可能会和目前的语音识别一样，达到人类（专家）的水平。

微软在语音识别领域的成就

黄学东在演讲中提到，微软于 1991 建立了 Lab，该实验室的愿景是让计算机具备 “看（see）、听（listen）、说（speak）” 的能力。1993 年，微软成立语音小组（Speech Group），希望能够让人与设备之间的语音交流成为主流。而如今，这一愿景正在慢慢实现。黄学东在演讲中特别提到了《经济学人》今年 1 月份的封面文章——“Now we're talking”，该文章认为语音技术让计算机不那么令人生畏，而且更易接近。

黄学东称，1993 年的时候，他们做的语音对话识别的词错率 (word error rate，简称 WER) 高达 80%。然而 2016 年 9 月 14 日，由黄学东带领的微软语音团队在产业标准语音识别基准测试中，实现词错率低至 6.3% 的这一技术突破，这比 IBM 的 6.6% 词错率更低，达到目语音识别领域错误率最低的水平。仅仅一个月后的 10 月 18 日，黄学东团队进一步将词错率降低至 5.9%，首次与专业速记员持平。

这个人类水平的对话语音识别系统用到了 10 个不同的 DNN（深度神经网络）。据雷锋网 (公众号：雷锋网) 了解，其具体实现过程是：首先用包括了 ResNet（残差网络）、LSTM（长短期记忆网络）在内的 6 个不同的神经网络组合并行工作，其结果再通过 4 个新的神经网络组合之后再输出，最终达到专业速记员的水平。

但是黄学东表示，目前计算机的对语音的识别还只停留在转录阶段，想要真正理解语义还非常困难。

微软客服助手 Toronto

黄学东表示，语音技术除了能够用作娱乐用途之外，还能够做很专业的事，比如技术支撑（ support）。它在演讲中提到，微软除了语音助手 Cortana 和聊天机器人小冰之外，还有一个代号为 “Toronto” 的客服助手项目。

Toronto 是基于深度强化学习的人工智能，能够理解对话中的上下文，让客服聊天机器人更加人性化、更加高效。

根据 PPT 的介绍，Toronto 不仅能自动回复，给出建议微软语音助手小娜，还能在解答不了时提示用户转接人工服务。此外，它还能帮助人工客服快速了解用户信息，给出回答建议，并可以转接给其他的工作人员，甚至还有录音功能。

当然，黄学东也表示，这些聊天助手和语音识别不一样，并没有一个已经建立起来的有效训练方法（ recipe）。

微软在深度学习方面的进展

黄学东此前曾表示，微软的深度学习工具包 CNTK 其实比谷歌的开源的要早，但是由于一开始并不是发布在 GitHub 上，所以外界知道的人也更少。但是黄学东表示，根据基准测试的结果，CNTK 比谷歌的和亚马逊的 MxNet 的性能要更好：相同条件下，CNTK 每秒能够处理的样本更多。

此外，黄学东还列举了今年 2 月的评测结果，来证明微软在深度学习方面的实力。从图中可以看出，微软认知工具包（ Toolkit）v2.0 beta 1 版本在性能、开发的难易程度、以及部署的难易程度这三个方面表现突出，而综合表现仅次于谷歌的 r0.10。

微软认知工具包的优势

目前，微软认知服务的 API 主要包括语言、语音、机器学习、视觉、搜索、知识这几大类。据黄学东介绍，微软的认知工具包有以下三大优势：

点击关键词可查看相关历史文章

●●●

近期热门

特训课程

【本文来源于互联网转载，如侵犯您的权益或不适传播，请邮件通知我们删除】