纳德拉的偏执微软重组研究院:剑指谷歌,血战 Facebook

新智元编译1

来源:凤凰科技、微软研究院、彭博社

译者:王婉婷 张巨岩 王嘉俊

没有创新,只有死亡,这是科技产业的最高定律。对于一个巨头来说,不同的企业发展阶段会有不同的策略。微软过去围绕 PC、云计算建立了完整的生态体系,在最早的技术突破之后,微软的策略是在市场和客户需求下,进行持续性的产品体验改善和创新。但从最近的微软财报来看,传统的 PC 业务已经遇到了瓶颈,云计算业务逐渐步入正轨,获得稳定的发展。

从 2004 年到 2014 年间,微软在 2004 年在 Windows、Window Server 和 Office 的许可占据总收入的 82%,而到了 2014 年其收入依然能达到 70%。

但变化发生在 2014 年到 2015 年之间,这时候微软重资发展云服务和硬件,2015 年微软的许可收入降到了 60% 以下。

相比于 2004 到 2014 年,10 年时间许可收入下降 12%,2014 到 2015 年之间,仅仅一年就变化了 10%。产品和技术的变革正在加快,过去的壁垒空前脆弱,巨头需要自我革命。

但仅仅基于 PC 和云计算,微软未来很难和 Google、Facebook 和亚马逊竞争。而现在正是到了下一代计算平台早期部署的时候,人工智能、虚拟现实、增强现实、量子计算等新兴领域,每一个都很可能成为下一代巨头的基础业务。在这个时间点,过去围绕产品所做持续性改善的时代,将让位于核心技术的突破和创新。

作为一个老牌的科技企业,微软也得加快创新速度,尤其是重整公司架构,把技术和产品进行更加紧密的结合。为此它重组了核心研发团队微软研究院,CEO Satya Nadella (纳德拉)也开始评估研发项目,看哪些可以发展成商用产品。微软所做的一切都是为了一个目的:找到下一代突破性技术,迅速变成产品。毕竟,微软在过去的发展中,已经吃了太多技术产品化缓慢的教训!

来自CEO的命令

这一天他走进了微软一位高管的寓所,无意之间他被一个研发项目吸引了。此时的纳德拉已经是微软的CEO,他刚刚上任不到一个月。吸引纳德拉注意的是2014年的一个演示产品,它可以利用语音识别和人工智实时翻译人与人之间的对话。纳德拉迅速下达命令,要求团队将技术与Skype整合,因为3个月后他就要向公众展示产品。

这可不是微软的办事风格。纳德拉已经在微软工作24年了,他应该知道这点,要将微软研究院的项目变成产品一般都很慢。为什么会这样?部分的原因在于公司架构。微软研究院与产品团队是分离的,研究者可以畅想未来,不必担心发明赚不赚钱,也不用操心产品是不是符合公司的目标。

这一次纳德拉破了例,他下了死命令,没有给下属们留下争论的时间。Skype集团项目经理 Lilian Rinco 说:“当他下命令时我们还没有正式的团队开发这款产品。”迅速建团队,马上投入开发,功夫不负有心人,他们最终推出了“Skype Translator(Skype翻译器)”。

如果没有纳德拉的直接命令,Skype翻译器的开发恐怕永远只是纸上谈兵。Skype翻译器成了微软的重要标志,由此开始CEO将亲自评估实验室项目,看它能否发展成可持续的商业产品。正是因为这个原因微软才对研发部门进行重组,对公司其它部门的工作方式进行调整。微软的目标很明确:迅速确定技术的潜力,在竞争者抄袭之前将产品交到用户手中。

成立新团队MSR NExT

为了打破研究院和公司其它部门之间的藩篱,2014年9月微软从1000名研发人员中抽调约500人组成了新团队MSR NExT。新团队不是纯粹的研究机构,它关注的是那些会对微软造成重大影响的项目。与此同时,微软研究院另一半员工将致力于为公司产品寻找新的思路。

Skype翻译器

最近的变革不只让Skype受益,还包括其它产品,如Office云生产工具、必应服务器、增强现实头盔HoloLens。变革还为Cortana带来了新功能,微软即将对数字助手Cortana升级,在获得用户许可后Cortana将可以扫描邮件,还可以设置自动提醒功能。

为了掌控人们的数字生活,微软正在与Google、Facebook竞争。微软研究院所发起的变革并非独创,它的对手早就这样做了。Facebook应用机器学习团队工程师 Ahmad Abdulkader 认为:“微软将研发部门完全独立出来,让公司的其它部门可以随意差遣。Google的做法和微软完全相反。” Abdulkader之前曾在微软和Google工作过。

与Google和Facebook的AI大战

在Google,研究人员与产品团队密切合作,他们的工作整个公司都能看到。Google高级研究员 Jeff Dean说:“Google没有什么真正独立的部门,员工做的事都与产品有关。我们的研发和产品团队是互联互通的。”

在Google的搜索引擎团队或者Gmail团队里,研发人员使用相同的工具,包括公司的开源人工智能框架TensorFlow。密切的协作为产品带来出色的功能,例如Smart Reply,它可以根据信息的内容向用户提供邮件回复建议。经过AI团队近一年时间的研发,2015年11月Google正式推出Smart Reply。Google新闻发言人Jason Freidenfelds还说,当公司决定在Inbox中采用Smart Reply技术后,团队又花了4个月开发原型产品。

Facebook也是这样做的,它正在开发会话AI助手M,2014年研发团队就已经开始动手了。2014年10月Facebook发表了一篇论文,谈到了研发项目的进展,按公司的计划,2015年夏天时新技术将通过Facebook Messenger进行测试。Facebook M研发主管Alex Lebrun每周都要与公司的顶级AI研究员会谈,探讨哪些实验室项目可以用在生活中。Facebook员工还可以通过FBLearner Flow工具了解研发进展,员工可以查看、复制、修改源代码,然后将代码用在自己的软件中。Facebook应用机器学习团队工程师Ahmad Abdulkader 说:“我们的实验就是这样展示和分享的。”

Facebook CTO Mike Schroepfer 说,在研发实验室和社交网络工作之间进行协作可以帮公司找到适合的人才。去年,Schroepfer 在公司总部的发布会上说:“我可以向所有人工智能开发者承诺,只要加入Facebook,我们保证会以最快的速度将大家的产品发送给10亿用户。”

这种管理办法也有一个弊端:科学家可能会忽略那些看起来赚不到钱的项目。几乎所有公司都在追求平衡,防止研发部门短视。例如,Facebook指派一些员工专门关注长期研发项目,Google伦敦DeepMind部门只从事AI研究工作,根本不考虑财务上的回报。

最大问题:技术转化为产品太慢了

微软最大的问题在于:当竞争对手开发出相似的产品时,微软自己的技术还没有现身于产品。例如,微软研究院科学家、图灵奖获得者 Jim Gray 早在1990年代就找到了现代数字绘图新方法。1998年比尔盖茨在大会上展示了Gray开发的Terra Server,听众一片欢呼,但从此之后就没有下文了。直到2005年Google地图推出,盖茨才猛然醒悟,马上命令下属在100天之内开发出自己的地图。

1991年,盖茨和微软前CTO Nathan Myhrvold 组建了微软研究院,当时曾经风光无限的贝尔实验室和施乐PARC正在走下坡路。微软从卡耐基梅隆大学招募了 Rick Rashid,让他模仿学校建立一个实验室,优秀的人才进来之后可以不受约束地开发产品。从实验室成立那天起,华盛顿大学计算机科学教授 Ed Lazowska 就担任团队的顾问,他说:“微软内部的技术转化环节出了问题,这才是最糟糕的事。”

现在的天才更喜欢影响世人而不是独立特行,正是因为这点微软才考虑转变管理风格。Lazowska表示:“产品团队现在更热心了,因为不论他们做什么都失败。我们要向新创意敞开胸怀,而微软研究院正是创意的来源。”

微软研究院周以真

微软研究院副总裁周以真(Jeannette Wing)上个月在演讲时谈到了公司的转变,她说:“一直以来,我们因为学术方面的成就而声名远扬,现在我们既重视科学成就又重视研发对公司的影响。”

为了给Cortana增加新的提醒功能,微软高级研究员和产品主管定期开会寻找最佳方案。微软Windows Cortana项目经理Marcus Ash说,他的团队与研究员合作为Cortana增加追踪功能,公司有一些人很反对,他们认为这样的事完全可以交给用户自己去做。微软研究员总经理 Eric Horvitz 表示:“如何用研究院的好创意来强化微软服务和产品,在这点上我们考虑得越来越多了。”

改变绝不可能一蹴而就。艾伦人工智能研究所(Allen Institute for Artificial Intelligence) CEO Oren Etzioni 说,微软已经调整好了,它可以开始过渡了。2008年Etzioni曾将自己创办的一家公司出售给微软。Etzioni还说:“你不可能一下就转到位,它是需要过程的。”

让CEO直接下命令的确管用。Skype翻译器背后的研发团队全力前进,开发出一款原型产品,2014年5月Nadella在Re/code科技峰会上展示了产品,没有错过时间。微软研究院战略主管 Vikram Dendi 说:“居然这么快,连我都难以相信。”

今天,Skype翻译器已经支持7种语言。Dendi 的工作就是评估MSR NExT的项目,看哪个可以适合推出了。现在Skype团队和研发团队每天都要开会讨论下一步的发展。

微软研究院都在研究什么? (13大领域)

1、算法和理论

探索博弈论、市场动态平衡、高效的算法

我们致力于理论计算机科学中的新兴研究领域,包括统计数据库的隐私问题和量子计算。我们也探互联网方面的算法和数学基础,包括网络搜索、社交网络分析、垃圾邮件过滤、以及网络安全。

我们同样在传统研究领域中投入了不少精力,这些领域包括复杂性(complexity)、加密、代数运算、随机结构(random structures)、以及数据分析的谱分析法(spectral methods)。我们也在努力为学习和数据挖掘开发可规模化(scalable)的算法、加密算法、图像算法、合成(synchronization)算法、网络(networking)算法、以及抽样算法。我们也研究系统、网络、以及算法交叉领域的问题:运行现今计算系统的算法基础——比如云计算、数据中心、大规模分布式系统、以及移动计算——并将我们的专长应用到实际层面,推动应用算法设计的进展、给出极为高效、可规模化、稳健的解决方案。

传统计算机科学领域之外,我们也在数学和物理学的一些与计算机密切相关的理论领域进行研究。这方面的研究主要是在组合学、几何和拓扑结构、概率论、统计物理学、数论、以及泛函分析(functional analysis)。

近期论文:

Nishanth Chandran, Srinivasan Raghuraman, and Dhinakaran Vinayagamurthy, Reducing Depth in Constrained PRFs: From Bit-Fixing to NC, in Public Key Cryptography (PKC) 2016, Springer, 6 March 2016.

Nishanth Chandran, Bhavana Kanukurthi, and Srinivasan Raghuraman, Information-theoretic Local Non-malleable Codes and their Applications, in Theory of Cryptography Conference (TCC) 2016, Springer, 10 January 2016.

2、计算语言学

机器翻译、多语言系统、以及自然语言处理

主要研究领域有三个。机器翻译,用以创造能迎合现今多样的翻译情景的系统和技术;多语言系统,用以开发对于语言计算的所有方面来说都具有自然语言中立性(natural-language-neutral)的方法;自然语言处理,用以设计和搭建软件来分析、理解、并生成人类使用的自然的语言,目标旨在使得用户能够像对一个人类说话一样对一台计算机说话。

近期论文:

William D. Lewis, Christian Federmann, and Ying Xin, Applying Cross-Entropy Difference for Selecting Parallel Training Data from Publicly Available Sources for Conversational Machine Translation, in Proceedings of IWSLT 2015, 4 December 2015.

Li Dong, Furu Wei, Shujie Liu, Ming Zhou, and Ke Xu, A Statistical Parsing Framework for Sentiment Classification, Computational Linguistics, December 2015.

3、计算机视觉

教授计算机理解视觉世界

计算机视觉的目标是让计算机能够高效地感知、处理、并理解图像和视频之类的视觉数据。终极目标在于,让计算机获得人类眼睛和大脑的惊人感知力——甚至超越人类的能力、转而以某些方式来辅助增强人类的能力。

我们的计算机视觉研究包括这些方面:

成像和摄影测量学,包括高分辨率摄像头、辐射校正(radiometric calibration)、光度立体法(photometric stereo)、3D成像和视频、从影像和视频中重建3D场景、以及影像和视频的增强。

模式识别和统计学习,包括数据聚类和分类、流形学习(manifold learning)、以及高维度几何和统计学。

物体探测和识别,包括人脸探测、对准(alignment)、以及标记(tagging);基于视频的人脸识别;以及基于稀疏(sparsity-based)的稳健人脸识别。另外也有更普遍的物体类别识别和高级医疗影像分析。

影像和视频的编辑及增强,包括去噪和去模糊、影像和视频的全新表征(novel representation)、以及去除物体之类的内容感知(content-aware)编辑技术。

近期论文:

C. Morrison, K. Huckvale, B. Corish, J. Dorn, P. Kontschieder, K. O’Hara, ASSESS MS Team, A. Criminisi, and A. Sellen, Assessing Multiple Sclerosis with Kinect: Designing Computer Vision Systems for Real-World Use, in Human-Computer Interaction, January 2016.

Je Hyeong Hong and Andrew Fitzgibbon, Secrets of Matrix Factorization: Approximations, Numerics, Manifold Optimization and Random Restarts, IEEE – Institute of Electrical and Electronics Engineers, 15 December 2015.

4、数据挖掘和管理

在数据中寻找模式与洞见

我们的工作聚焦于解决数据库架构和信息管理方面的关键问题。目前,我们关注的研究领域是:大规模数据库系统的基础设施;降低信息管理的总成本;更方便地请求(query)、浏览(browse)、以及组织(organize)同时具有结构化数据和非结构化数据的富数据集;以及管理数据库模式(schemas)和映射(mappings)。

近期论文:

Anshumali Srivastava, Arnd Christian König, and Misha Bilenko, Time Adaptive Sketches (Ada-Sketches) for Summarizing Data Streams, in ACM SIGMOD Conference, ACM – Association for Computing Machinery, 26 June 2016.

Royi Ronen, Gal Lavee, and Elad Yom-Tov, Recommendations meet web browsing: Enhancing Collaborative, IEEE – Institute of Electrical and Electronics Engineers, 16 May 2016.

5、图像和多媒体

迎面几何压缩和多分辨率表达的挑战

我们关注随计算力和存储力的提升而带来的新的多媒体体验和图像体验。我们的研究横跨所有的线性和交互式的媒体,包括电视、宽带、及游戏。通过研究多分辨率表达(multiresolution representations)、信号增强、以及几何和多媒体数据压缩(compression of geometry and multimedia data),我们寻求找出生产、传播(transmit)、以及展示(display)复杂模型和多媒体信号的过程中所面对的挑战。

近期论文:

Bo Wu, Tao Mei, Wen-Huang Cheng, and Yongdong Zhang, Unfolding Temporal Dynamics: Predicting Social Media Popularity Using Multi-scale Temporal Decomposition, AAAI – Association for the Advancement of Artificial Intelligence, February 2016.

Danhang Tang, Jonathan Taylor, Pushmeet Kohli, Cem Keskin, Tae-Kyun Kim, and Jamie Shotton, Opening the Black Box: Hierarchical Sampling Optimization for Estimating Human Hand Pose, in Proc. ICCV, IEEE – Institute of Electrical and Electronics Engineers, December 2015.

6、健康

生物信息学、合成生物学、生物医药、个性化医疗

计算方面的创新在持续地为个人、组织、以及社会带来生产力的巨大提高,而这些之中,没有比全球无数人的医疗健康受益更大的了。为达到这一意义重大的长远目标所作的努力有各种各样的形式,包括辅助认知(assisted cognition)、生物信息学工具、合成生物学、生物医药、移动设备和医疗健康的融合、以及个性化医疗。

近期论文:

Robin Brewer, Meredith Ringel Morris, and Anne Marie Piper, “Why would anybody do this?”: Older Adults’ Understanding of and Experiences with Crowd Work, in Proceedings of CHI 2016, ACM – Association for Computing Machinery, May 2016.

Lilian de Greef, Meredith Ringel Morris, and Kori Inkpen Quinn, TeleTourist: Immersive Telepresence Tourism for Mobility-Restricted Participants, in CSCW 2016 Extended Abstracts, ACM – Association for Computing Machinery, February 2016.

7、人机交互

加强与用户的交互以及复杂信息的展示

人机交互方面的研究被微软研究院的多支研究团队作为研究核心。我们的工作聚焦于加强用户与计算设备的交互方式。这包括了搜索、访问、和信息管理,展示复杂数据和信息,用户建模和活动识别(activity recognition),高效输入和交互,自动化的角色(the role of automation),以及智能系统与直接操作(direct manipulation)相结合。

近期论文:

Michael Nebeling, Alexandra To, Anhong Guo, Adrian A. de Freitas, Jaime Teevan, Steven P. Dow, and Jeffrey P. Bigham, WearWrite: Crowd-Assisted Writing from Smartwatches, in CHI 2016, ACM – Association for Computing Machinery, May 2016.

Sean Rintel, Richard Harper, and K enton O’Hara, The Tyranny of the Everyday in Mobile Video Messaging, ACM – Association for Computing Machinery, May 2016.

8、机器学习和人工智能

自动推理与决策应用

我们在自动推理、适应(adaptation)、以及决策和学习的理论与应用方面进行研究。我们的研究目标包括从数据和数据挖掘中学习。通过搭建能自动从数据中进行学习的软件,我们设计出拥有新功能和灵活性(flexibility)的应用。我们的研究关注于运用统计方法来开发更先进、更智能的计算机系统。

近期论文:

Bin Gao and Tie-Yan Liu, Global Optimization for Advertisement Selection in Sponsored Search, in JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 1 March 2015.

Andrew Brown, Zhihao Ding, Ana Viñuela, Dan Glass, Leopold Parts, Tim Spector, John Winn, and Richard Durbin, Pathway Based Factor Analysis of Gene Expression Data Produces Highly Heritable Phenotypes that Associate with Age, in G3: Genes | Genomes | Genetics, March 2015.

9、移动计算

建立高效、响应及时、并且有用的设备和服务

我们探索着移动计算领域中各式各样的问题,包括:

新型设备,包括可穿戴设备和嵌入式设备(embedded)

移动设备、可穿戴设备和嵌入式设备使用的传感器,以及传感器网络

能让移动设备效率(包括CPU和带宽)最大化的系统和架构

应用移动计算来创造能增强我们个人和职业方面的电子生活的技术。

运用机器学习、可视化、移动计算、传感器、以及设备方面的专长和定性评估技术,提升生理计算、医疗、家庭科技、计算机辅助的创造力、以及娱乐等领域的体验。

近期论文:

Jaime Teevan, Shamsi T. Iqbal, and Curtis von Veh, Supporting Collaborative Writing with Microtasks, in CHI 2016, ACM – Association for Computing Machinery, May 2016.

10、量子计算

创造新一代的计算设备

量子计算是把量子物理学的基本原理和新的方向应用于材料科学的研究,以建立一种通过量子效应计算的计算机设备。除了创造量子计算机,该领域还包括计算机执行的相关算法。

我们正在探索建立量子计算机的理论和实验方法。我们招募了数学、物理和计算机背景的研究员和理论学家,与全世界各地的学术界和研究机构进行合作。我们的任务是理解量子计算的基本原理,以及它的应用和部署:我们的团队也致力于开发真实世界能够使用的量子计算的算法,理解它们能够带来的影响,并设计出全面的软件架构,以支持这些算法能够在可扩展的、可容错的量子计算机上实施。

近期论文:

Alex Bocharov, Xingshan Cui, Vadym Kliuchnikov, and Zhenghan Wang, Efficient Topological Compilation for Weakly-Integral Anyon Model, in Physical Review A, vol. 93, pp. 012313 , 8 January 2016.

Jonathan Welch, Alex Bocharov, and Krysta M. Svore, Efficient Approximation of Diagonal Unitaries over the Clifford+T Basis, in QIC, vol. 16, no. 1 & 2, pp. 87–104, Rinton Press, 1 January 2016.

11、搜索、信息检索和知识管理

帮助人们组织和查找信息

知识工作者需要一款容易使用并且直观的软件。在他们已经忘记了文件放在哪里,也忘记了文件的命名,但即便如此还需要能够容易找到。他们也需要更好的工具,找到互联网上的信息。为了满足这个需求,信息检索和搜索技术是至关重要的。我们正在追求信息检索、过滤和管理,也在使用分类技术和系统发展的接口,这将带来更丰富的用户体验。

12、安全和隐私

威胁分析、数据库的隐私和移动设备安全

我们正在学习计算机系统相关的各方面的安全性。这包括了安全系统的设计、可用性、评估和产品安全认证、数据水印算法的鲁棒性、开放网络的威胁分析和数据库隐私。此外,我们致力于让移动设备相比现在更为安全。

近期论文:

Rohit Sinha, Manuel Costa, Akash Lal, Nuno Lopes, Sanjit Seshia, Sriram Rajamani, and Kapil Vaswani, A Design and Verification Methodology for Secure Isolated Regions, in Programming Languages Design and Implementation (PLDI), ACM – Association for Computing Machinery, June 2016.

13、语音识别、语音合成和对话系统

教会计算机如何听讲

使用语言来人与人之间交流想法,始终是最自然和方便的事情。然而当人和计算机交流,或者通过计算作为媒介和人交流,这里的挑战就会变大很多。我们致力于开发自然语言技术,使得人机语音交互和人与人之间的交流更加自然。

我们目前的重点是自动语音技术,使得计算机能够方便的访问数据、帮助创建内容、执行任务。语音合成使得计算机能够说“人”话,回应并提供信息,以及阅读。语音文档检索和处理,丰富了人与人之间的沟通,例如把语音转换到文本。信号处理能够改善信号的条件作用,改变信号的参数例如音高、语速,以及无缝的语音连接。我们正致力于多个项目,已达到全面启动语音计算机的长期愿景。

在对话系统中,我们把这些技术组合在一起,并用算法增强,以理解用户的意图和行为。我们的对话系统应用在手机助手、游戏系统和技术支持等领域。

最近项目:

听觉建模

噪声鲁棒性语音识别

语言处理的递归神经网络

干货下载

1.【华创证券】机械设备:机器人大趋势

2.【东吴证券】大国崛起:中国智造值得中长期布局

3.【广发证券】清洁机器人:旧时王谢堂前燕,飞入寻常百姓家

4.【民生证券】人工智能 + 适合的应用场景

5.【荐书】The Master Algorithm

如何下载?

关注新智元微信订阅号(AI_era),回复“12月下载”即可获得。