从局外人到行业领导者，推动Facebook人工智能的背后功臣原来是他！

2017-04-21阅读 147 猎云网我要关注

文 | 猎云网（ilieyun）小白

距离Facebook在门洛帕克的总部3000英里外，在一幢曼哈顿市中心古老的米色办公楼里，一群公司员工正在研究与其说是社交网络不如说是科幻故事的项目。这个团队名叫Facebook人工智能研究小组，内部被称为FAIR。FAIR的目标十分明确：开发一个与人类匹敌的人工智能计算机。虽然距离最终的目标实现仍很遥远，该小组至少取得了在十年前无人敢想的成就。这些AI项目创作的作品可以达到以假乱真的程度，完成从维基百科上挑选出来的智力测试。他们可以玩高级视频游戏如“星际争霸”。逐渐地，他们变得越来越智能。然后某一天，他们将会把Facebook从原来促进朋友之间交互的工具变成你的朋友。

出于各种原因，FAIR并非真正意义上的Facebook团队。FAIR的成员并不直接在这个价值4100万美元且拥有大量重量级热门产品的公司下工作。而且它的终极目标可能要在几十年后才能实现，甚至也有可能永远实现不了。而且该小组也不是由典型的硅谷大咖领导，而是一位56岁的学者Yann LeCun，他在现实生活中经历过真正的失败，又成功东山再起。他提出的关于人工智能的理论曾经被世人拒绝如今又被视为一流理论，并且他的证明就是Facebook的赏金。

他说：“你与数字世界、手机、计算机的交互将被彻底改变。”

FAIR正在改进计算机独立的视听与交流能力，团队的发现也渗透到了Facebook的产品中，从News Feed排名到相机图片滤镜等一切。Facebook也出重金投资——不单单因为人工智能十分有趣，更因为人工智能是必要的。在当今科技的各个方面，企业在他们的AI基础上展开竞争。Uber基于AI的自动驾驶汽车是其打车战略的核心。谷歌依赖AI的Google Home智能扬声器可以回答用户在搜索栏中输入的问题。亚马逊正在打造具有人工智能收银机的便利商店，以颠覆6740亿美元的食用杂货市场。

而在Facebook，AI亦无处不在。比如，基于AI的照片滤镜，正帮助其应对来自Snapchat的挑战。具备看到照片中物体并决定在推送中为你展示什么内容等能力的AI正帮助公司提供令人信服的使用体验来保留用户。类似的技术还在监视着骚扰、恐怖和色情内容，以便及时标记并清除。

“人们在Facebook全系列产品上的体验全仰仗于AI，”公司的应用机器学习团队（AML）负责人Joaquin Candela说道，“如今，Facebook的存在已离不开AI。”

随着该领域的不断发展，Facebook将越来越依赖LeCun和他的团队，来帮助公司领先于其他或新或旧的竞争对手。

饱受了多年的批判和边缘化，LeCun最终拥有了一切：80名研究人员，来自Facebook的大量资金，以及对他工作的主流信任。他现在需要做的所有事情就是输出研究成果。

计算机的视觉能力

很久之前，LeCun便相信他可以让计算机“看见”。现在看来，面部识别和图像检测再平常不过，但是在1980年代初期，当LeCun还在巴黎读大学时，计算机实际上是看不到任何东西的，无法识别图像中的物体也无法识别镜头中发生的事情。也正是在这期间，LeCun偶遇了一个打开自1960年代以来始终未被深入探索的领域的方法，但他的想法或将“允许机器进行学习，其中就包括感知。”

这个方法被称为人工神经网络，它采用小型、互连的传感器系统，将图像中的内容分解为微小的部分，然后根据系统之前的输入识别模式并确定其看到的内容。在阅读了反对神经网络的文章——即这些神经网络训练难度大且不是特别强大——之后，LeCun依然决定继续前进，攻读这方面的博士学位，哪怕外界争议巨大。谈及这些评论，他只表示：“我就是不信罢了。”

人工智能领域的艰难时期出现得如此频繁密集以至于人们为此想出了一个专属名词：AI寒冬。当研究人员的成果难以匹配他们曾经的豪言壮语时，AI寒冬大面积来袭，外界看来仿佛是科技的不足，结果就是资金短缺、兴趣枯竭、技术发展也随之暂停。

LeCun也经历他自己的AI寒冬。90年中期，他进入贝尔实验室进行AI研究工作之后，AT&T的内部冲突使得他的团队分崩离析，而那时他们正要推出检核读取ATM机——如今仍在使用的基于神经网络的技术。“在即将成功的时候，整个项目戛然而止，”LeCun说，“真的非常令人沮丧。”

与此同时，其他方法逐渐获得了主流研究人员的青睐。这些方法在日后或不再受宠，但是在当时，他们的兴起却足够推动神经网络的发展——然而，LeCun却遭遇了边缘化。2000年代初期，企业学术机构甚至都不允许他在他们的会议上发表论文。“计算机视觉领域基本上是无视他的，”神经网络先驱之一Geoff Hinton说道，“人们认为他的研究是80年代的产物，如今这些问题早该被解决了。”

“当然现在没人会这么说了，”他补充道。

其他神经网络研究者在当时也遭遇了相似的问题。蒙特利尔大学教授、蒙特利尔学习算法研究机构负责人Yoshua Bengio曾一度几乎找不到愿意从师与他的研究生。他说：“我只能向学生施加压力来要求他们留在这个领域深造，因为他们担心完成博士学位后找不到工作。”

2003年，LeCun为自己的救赎奠定了基础。那一年，他加入了纽约大学，并且在一个大型非正式的神经网络复兴联盟中结识了Hinton和Bengio。“我们开始了被我戏称为’深度学习阴谋’的研究，”LeCun笑着说。

深度学习阴谋在该领域发挥了重要的作用，主要在于其相信，相比于为你需要检测的每一个类型物体开发单个的、专门的神经网络，你可以采用相同的模板来设计一个可以识别图像、视频和语音的神经元。因此，你不必为了识别企鹅建一个神经网络，为了识别猫又建一个神经网络，相反，你可以开发一个神经网络来同时识别企鹅和猫，并分辨两者差异。这些新的神经网络同时还可以被修改用于其他任务，比如根据音频波识别语音模式。

深度学习阴谋的研究主要受到两个重要外部因素的支持：计算机能力的提高，这一点使得神经网络的工作速度足够跟得上实际应用，以及可用数据的指数级增长，这一点主要得益于互联网的广泛普及，大量的数据可以让神经网络更加智能。最终，在这两大因素的推动下，一个灵活、快速、精确的方法为该领域开辟了新的可能性。

凭借LeCun和他同僚们奠定的基础，计算机视觉在2010年代初期得到了爆炸式发展。计算机开始能够识别图像中的物体，然后是视频中的，接着是直播中的。现在，你可以将摄像头对准一个篮球，AI就能知道镜头前的物体是什么。于是，LeCun瞬间从局外人成了行业领导人。“也就一年时间，原本无人问津的领域如今热闹非凡，”LeCun说道，“太疯狂——太疯狂了。”

2013年12月，LeCun加入了Facebook。对于有兴趣将AI研究应用于图像的人来说，Facebook是一个理想的工作环境。Facebook的平台上拥有大量图像，足够让LeCun和他的研究员实现他们的新理念。FAIR经常与AML合作，然后将其研究应用于Facebook。这两个团队还建立了新的系统，让整个公司都可以访问这些成就。AML使用FAIR的研究来决策在News Feed中为你呈现哪些内容等等。

计算机的思维能力

让计算机学会看是教会它们理解世界运作的基本步骤。人们之所以了解世界是因为我们一遍又一遍地看到重复的场景，并形成了对它们如何展开的认知。比如，当一辆车快速驶向我们时，我们就会知道可能有危险，从而立即躲开。当天黑时，我们就会知道打开电灯可以让周围重新恢复明亮，因此我们会打开电灯。

FAIR正试图让计算机学会像我们人类那样预测结果。LeCun解释说，他的团队正在让他们的AI观看大量相关视频，然后在某个时间点暂停，让机器预测接下来发生的事情。如果你重复向AI系统展示水瓶盖子在某人头顶上旋开的视频，系统接下来就会预测这一举动会让那人被浇湿。

“从某种程度上来说，智慧的本质就是预测的能力，”LeCun解释说，“如果你能预测一系列行为之后可能发生的结果，那么你就可以提前计划。你可以通过安排一系列行动来达到某一个特定目标。”

让人工智能学会预测是当今该领域最棘手的困难之一，很大程度上在于有太多情景存在多种可能结果在理论上是正确的。

想象一下，LeCun说，把笔垂直于桌面上方然后松手。如果你问计算机接下来笔会处于什么位置，根本没有正确答案——机器知道笔会落下，但是具体落在哪里它不知道。所以你需要告诉系统，正确答案有多个，“并且实际发生的结果只是所有可能性中的一个。这就是在不确定情况下学习预测的难点。”

帮助AI理解并接受不确定也是AI学科中的一部分，它被称为“无监督学习”，也是AI领域的最前沿研究。当AI观察得足够多能够了解世界的运行规律并预测接下来发生的事情时，它的思维方式就离人类更近一步，获得一种常识，而这在LeCun看来，正是让机器更加智能的关键。

LeCun和他的团队明白，AI全面了解灰色区域仍需要多年的时间，但他们相信成功就在那里。“这一刻最终会到来，”LeCun领导下的研究经理Larry Zitnick说，“但是起码得等上10年左右的样子。”

计算机的语音能力

早在12月，马克·扎克伯格发布了一组幻灯片向外界展示了他的“AI管家”——贾维斯。贾维斯的代码由这位Facebook创始人亲自完成，它可以帮扎克伯格制作吐司面包，在对他父母进行脸部识别后迎他们进家门，甚至教他的女儿马克思说普通话。

贾维斯很棒。但在LeCun看来，一点特别之处都没有。“大部分都是编好的脚本，而且都相对简单，而且它的智能水平，从某种程度上来说也比较浅显，”LeCun说。显然他的眼界更高。

LeCun希望打造一种真的可以明白你的话语的助手。“可以进行对话，”他说，“可以事先安排，可以不会因为愚蠢而让你生气的机器。”

目前并没有打造这种助手的蓝本，但是FAIR眼下的研究工作或可为其筑起基础。给予AI对世界的初步了解，并训练其预测未来发生的事情是神经网络的一部分工作。让机器学会读写也是FAIR正在让神经网络实现的一部分工作。在计算机眼里，图像就是一组数列——但是一个语音句子也可以表示为一组数列，文本也可以。因此，像LeCun这样的人就可以使用神经网络架构来识别图像中的物体，语音句子中的单词或者文本中的主题。

但是，AI仍不能用理解图像的方式去解读单词，不过LeCun已经看到未来贾维斯的最终形态。他的理想助手将具有常识，并且可以和其他助手交流。例如，你想和朋友一起去听音乐会，你会告诉你的助手来协调这件事，然后助手会比较你们的音乐喜好，日历和可行行为来给出建议。

“机器必须得理解现实世界中的某些特殊情况，”LeCun说，“人类不能同时出现在两个地方，人类不能说从纽约飞到旧金山就可以从纽约飞到旧金山，旅行的成本也要考虑——协调人类的生活，机器需要考虑到方方面面。”

Facebook目前正在试验一个简单版本的数字助手——M，由Messenger团队运行管理，并依赖部分FAIR的研究。Facebook Messenger最近发布了“M建议”，当M认为它可以提供帮助时，它将立即介入对话。例如，当你问“你在哪里？”，M会出现在对话中并为你弹出一键分享位置的选择。公司很可能也会将这一功能发展到更高级的用途。

M是Facebook使用AI来理解意义过程中的一个应用，但是公司正在考虑这项技术的其他用途。公司甚至还可以将其应用于打破此前其遭受的责难。

早在2016大选给Facebook带来两极分化和假新闻之前，LeCun团队中的一员Y-Lan Boureau曾试图使用AI在Facebook上创造更有建设性的对话。她希望创造一个我们有能力处理所有看到观点的世界。AI可以通过映射出文本中模式来察觉到不对劲的地方，并想出可能的办法来改变话题进展防止糟糕的事情发生。她说：“如果我们更多地了解这种学习过程，以及这些想法如何从数据进入人们的大脑，我们就可以更加简单地理解如何总体上进行更有建设性的对话。”

2016大选之后，LeCun公开表示Facebook有使用AI的技术能力来过滤假新闻。有些人还将他的声明视为解决美国的广泛两极分化问题的办法。但是LeCun表示，这个任务还是交给第三方来做比较好，机器容易引入偏见并不适合做这件事。“AI可以出力，但是比技术问题更复杂的是产品设计问题，”他说，“你并不希望引导人们陷入某种极端观点，在这方面你需要尽量保持中立。”