人工智能和机器人
垂直媒体平台

人工智能基础概念与34个误区

1.什么是人工智能?
是对让计算机展现出智慧的方法的研究。计算机在获得正确方向后可以高效工作,在这里,正确的方向意味着最有可能实现目标的方向,用术语来说就是最大化效果预期。人工智能需要处理的任务包括学习、推理、规划、感知、语言识别和机器人控制等。

常见误解
「它是一个特定技术」。例如在二十世纪八十年代到九十年代,人们经常会看到新闻报道中人工智能与基于规则的专家系统被混为一谈。现在,人工智能经常会与多层卷积神经网络混淆。这有点像把物理和蒸汽机的概念搞混了。人工智能探究如何在机器中创造智能意识,它不是在研究中产生的任何一个特定的技术。
「这是一个特定类别的技术方法」。例如,经常有人用符号化或逻辑化的方法将人工智能与「其他方法」相互比较,如神经网络和遗传编程。人工智能不是一种方法,它是一个课题。所有这些方法都是在对人工智能进行研究的产物。
「这是一小群研究者的方向」。这个误解与前几个错误有关。一些作者使用「计算智能」指代几个特定的研究者群体,如研究神经网络,模糊逻辑和遗传算法的研究者。这是非常片面的,因为这种分类让人工智能的研究陷入孤立的境地,让研究成果不能得到广泛的讨论。
「人工智能只是算法」。严格说来不算是误解,人工智能的确包含算法(也可粗略定义为程序),它也包含计算机中其他的应用。当然,人工智能系统需要处理的任务相比传统算法任务(比如排序、算平方根)复杂得多。

2.人工智能将如何造福人类?
文明的一切都是人类智慧的产物。在未来,人工智能会将会扩展人类的智力,这就像起重机让我们能够举起几百吨的重物,飞机让我们很快飞到地球的另一端,电话让我们在任何角落实时交流一样。如果人工智能被适当地设计,它可以创造更多价值。

常见误解
「人工智能没有人性」。在很多反乌托邦幻想中,人工智能会被用来控制大部分人类,无论是通过监视,机器人执法,法律判决甚至控制经济。这都是未来可能出现的情况,但首先它不会被大多数人接受。人们往往忽视人工智能可以让人类接触更多的知识,消除人与人之间的语言隔阂,解决无意义和重复的繁重任务。
「人工智能将造成不平等」。毫无疑问,自动化程度的提升将使财富集中到越来越少的人手里。但是现在,如何使用人工智能的选择权在我们手里。例如,人工智能可以促进协作,让生产者与客户有更多交流,它可以让个人和小组织在全球化的经济环境下独立运作,摆脱对于特定大公司订单的依赖。

AIandRobotslogo

3.什么是机器学习?
它是人工智能的一个分支,探索如何让计算机通过经验学习提高性能。

常见误解
「机器学习是一个新的领域,它已经代替了人工智能的地位」。这种误解是最近机器学习热潮产生的副作用,大量学生在之前没有接触过人工智能的情况下学习了机器学习课程。机器学习一直是人工智能的核心话题:阿兰·图灵在二十世纪五十年代的论文中已经认为学习是通向人工智能最可行的途径。这一观点似乎是正确的,人工智能最突出的早期成果,Arthur Samuel 的跳棋程序就是使用机器学习构建的。
「机器不能学习,它们只能做程序员告诉它的事情」。这显然是错的,程序员能够告诉机器如何学习。Samuel 是一个优秀的跳棋玩家,但他的程序很快就通过学习超过了他。近年来,机器学习的很多应用都需要大量数据来进行训练。

4.什么是神经网络?
神经网络是受生物神经元启发构建的计算系统。神经网络由许多独立的单元组成,每个单元接收来自上一层单元的输入,并将输出发送到下个单元(「单元」不一定是单独的物理存在;它们可以被认为是计算机程序的不同组成部分)。单元的输出通常通过取输入的加权和并通过某种简单的非线性转型,神经网络的关键特性是基于经验修改与单元之间的链接比较相关权重。

常见误解
「神经网络是一种新型计算机」。在实践中,几乎所有的神经网络都运行在普通的计算机架构上。一些公司正在设计专用机器,它们有时会被称作是「神经计算机」,可以有效地运行神经网络,但目前为止,这类机器无法提供足够的优势,值得花费大量时间去开发。
「神经网络像大脑一样工作」。事实上,生物神经元的工作方式比神经网络复杂得多,自然界存在很多种不同的神经元,神经元的连接可以随时间进行改变,大脑中也存在其他的机制,可以影响动物的行为。

5.什么是深度学习?
深度学习是一种特定形式的机器学习,训练多层神经网络。深度学习近年来非常流行,引领了图像识别和语音识别等领域的突破性进展。

常见误解
「深度学习是一个新领域,已经代替了机器学习的地位」。事实上,深度学习在神经网络研究者中间已经被讨论了超过二十年。最近深度学习的发展是由相对较小的算法改进以及大数据集模型和计算机硬件发展驱动的。

6.什么是强人工智能和弱人工智能?
「强人工智能」和「弱人工智能」概念是由 John Searle 最先提出的,是他对人工智能研究方向的两个假设。弱人工智能假设机器可以通过编程展现出人类智能的水平。强人工智能则假设机器出现意识,或者说机器思考和认知的方式可以用以前形容人类的方式来形容。

常见误解
「强人工智能是人类智力级别通用人工智能研究的方向」。这个解释具有代表性,但这不是强/弱人工智能概念被提出时的本来意义。同样,「弱人工智能」被认为是针对特定领域,执行特定任务的人工智能研究,如语音识别和推荐系统(也称工具 AI)。虽然没有人具有最终解释权,但这种语义的转换可能会造成不必要的混乱。

7.什么是 AGI,ASI 和超级智能?
AGI 代表的是通用人工智能,这个术语意在强调建立通用目的智能系统的雄心目标,其应用的宽度至少能覆盖人类能解决任务。ASI 指的是人工超级智能:远远超越人类智能的人工智能。更具体地说,一个超级智能系统高质量决策能力要比人类强,它能考虑更多的信息和进一步深入未来。

常见误解
「主流的人工智能研究者并不关心通用人工智能。」像语音识别这种细分领域的某些研究者主要关心的是其所在领域的具体目标,其他一些研究者比较关心找到现有技术的商业应用。在我的影像里,如学习、推理、和计划等细分领域的大多数人工智能研究者认为他们目前的研究工作有助于解决通用人工智能的子问题。
「人类的智能是一种通用智能」。这种观点常被认为是显而易见,不值得讨论,但它却几乎回避了关于 AGI 的所有讨论。持有这种观点的人通常会认为通用智能就是人类能做到所有任务的能力。然而当然不存在人工不能做的人类工作,所以人类能做已经存在的人类工作也没什么好惊讶的。难的是怎么定义那种完全独立于以人类为中心的价值观和偏见的宽度。所以我们只能说人类智能是某种程度上的通用智能,人类能做人类能做的所有事情。另一种更有意义的说法是人类能做很多事情,但目前为止这个问题 还没有确切的答案。

8.什么是摩尔定律?
「摩尔定律」指的是多个相关的观察和预测能影响电路性能和密度。现代理解的「摩尔定律」是每一秒的操作次数以及每一美元所能买到的电脑性能,将每隔 N 个月翻一倍以上,N 大约是 18,这一表述有些背离「摩尔定律」最初的定义。

常见误解
「摩尔定律是物理定律」。事实上,摩尔定律只是一种关于技术进步的经验观察。没有什么规定摩尔定律会持续下去,当然它也不可能无限持续下去。时钟速度的增加已经达到了顶峰,目前价格/性能上的提升也来自于单个芯片上内核(处理单元)数量的上升。

9.摩尔定律能让我们预测出超级人工智能的到来吗?
不能。人工智能系统不能做的事情很多,比如理解复杂的自然语言文本;加速意味着在很多情况下得到的错误答案的速度也越快。超级智能需要在主要的概念突破。这些很难预测,即便我们有了速度更快的机器也没啥用。

89898989898989

 常见误解
「让机器更强大的意思是提升它们的智能」。这是人工智能的未来的讨论中的一个常见主题,这个主题似乎建立在一个混乱的概念上,我们使用「强大」来描述人类智力,但是在描述计算机时用的「强大」的含义更加简单,就是每秒操作的次数。

10.什么是机器 IQ?
没有机器 IQ 这种说法。某种程度上一个人在多个任务上的多种智慧能力是高度相关的,人类可以说有 IQ,但是研究者们对任意单一维度上的 IQ 定义有争议。另一方面,任意给定的机器的各种能力之间都是不相关的:一台机器能打败世界象棋冠军,并不意味着它能玩的好别的棋类游戏。能赢得猜谜比赛的机器也无法回答「你叫什么名字?」这样简单的问题。

常见误解
「根据摩尔定律,机器 IQ 会不断上升」。既然根本不存在什么机器 IQ,它也就不可能增长;摩尔定律描述的仅仅是原始的计算吞吐量,与是有存在执行任意特定任务的算法没有关系。

11.什么是智能爆炸?
「智能爆炸」这个术语是 I.J.Good 于 1965 年在其文章「Speculations Concerning the First Ultraintelligent Machine」中创造的。它指的是足够智能的机器能重复设计它自己的硬件和软件来创造出一个更加智能的机器的可能性,这个过程会一直重复下去,直到「人的智能被远远的甩在后面」。

常见误解
「一旦机器达到人类水平的智能,智能爆炸就在所难免」。反过来:虽然逻辑上是可行的,但是让 N 代的机器设计出 N+1 代的机器太难了。同样的道理,我们造的机器可能在一些重要的方面成为超过人类,但是在其他方面可能会落后于人类。在解决贫困、治疗癌症等重要问题上,机器的能力肯定会比人类强,而且不需要在人工智能研究上有大突破就能实现。

12.人工智能系统何时才能超过人类智力?
这是一个难以回答的问题。因为首先它假定这件事必然发生,事实上它具有选择性:假如人类选择不去发展这样的人工智能,这件事就不太可能发生。第二,「超过」假定智力是线性的,而这不是真实情况,机器在某些任务的处理上比人类更快,而在更多放面则很糟糕。第三,如果我们认为「通用的」智能是有用的,我们就可以开发这样的机器,但目前我们不知道它是不是有用的。宽泛地说,实现这样的人工智能还需要很多技术突破,而这些都是难以预测的,大多数科学家认为这件事会在本世纪内发生。

常见误解
「它永远不会发生」。对技术突破进行预测是很难的。1933 年 9 月 11 日,Rutherford,也许是那个时代最著名的核物理学家,在英国科学促进年会上向人们宣布:「任何想从原子变形过程中获取能源的努力都是徒劳的。」(他在各种场合发表过许多类似言论,大意都是表达使用原子能是不可能的)结果第二天早上,Leo Szilard 发现了中子诱导链式反应,并很快对核反应堆申请了专利。

13.人工智能系统现在能做什么?
人工智能的应用范围已经比几年前大很多了。从围棋、纸牌、简单的问答、从新闻中抓取信息、组合复杂的对象、翻译文字、识别语音、识别图像中的概念、到在「普通」交通条件下驾驶汽车,不一而足。在很多情况下,人工智能在你不知道的情况下发挥着作用,如检测信用卡欺诈,评估信用,甚至在复杂的电子商务拍卖中投标。搜索引擎中的部分功能也是人工智能的简单形式。

常见误解
「像『下棋』这样的任务对机器来说和对人类来说是一样的」。这是一个错误的假设:机器「掌握」一项技能的程度超过了人类。人类通过阅读和理解学会游戏规则,通过观看棋局和下棋来提高水平。但典型的下棋程序没有这样的能力——将下棋规则编程,让机器算法直接给出所有可能的下一步。机器无法「知道」人类所谓的规则(目前新兴的强化学习方式改变了这一点)。DeepMind 的人工智能系统可以学会很多种游戏,它不知道自己在学习什么,看起来也不太可能学会这些游戏的规则。
「机器执行任务的方式和人类一样」。我们不知道人类思考问题的机制,但这种机制与人工智能系统处理任务的方式看起来大不相同。例如,下棋程序通过考虑当前棋局状态和下一步可能的序列比较结果考虑下一步,而人类经常是先发现可能获得的优势,然后继续考虑如何找到一系列方式来实现它。
「如果机器可以做到任务 X,那么它就可以做类似的所有任务了」。参见有关机器 IQ 的问题,机器目前还不能形成通用化的智能,它们的功能通常局限于某一领域。

14.人工智能会对社会造成什么样的影响?
在可预见的未来中,人工智能的各种应用将会改变社会形式。自动驾驶汽车现在已经在路上进行测试,至少有一家公司承诺将在 2016 年内交货(考虑到目前遇到的困难,其他公司的态度则更为谨慎)随着计算机视觉和机械腿设计的进化,机器人非结构化环境正在变得更为实用——可能的应用范围包括农业和服务领域(特别是对于老人和残疾人而言)。

最后,随着机器能够理解人类语言,搜索引擎和手机上的「个人助理」将会改变现有的人机交互方式,它们可以回答问题,整合信息,提供建议,并促进交流。人工智能还可能会对科学领域(如系统生物学)产生重大影响,这些学科中信息的复杂性和数量一直令人望而却步。

常见误解
「机器人正在接管一切」。参见《人工智能的智力何时才能超过人类》,人工智能中的绝大多数进步是基于任务处理的改进。当然,从长远来看,维持人类的控制很重要。

15.人工智能与机器人的发展会取代大量人类的工作吗?
一些研究(比如 Frey 和 Osborne 在 2013 年的调查)表明在未来美国将近一半的工作在自动化面前会变得很脆弱。其他作者,比如 Bryjolfsson 和麦肯锡在 2011 年的工作表明这一变化已经开始了:2008 年经济萧条之后就业率的缓慢恢复,生产率与停滞不前的工资之间的差异化增加了自动化的进程。随着人工智能与机器人的持续发展,更多的工作将受到影响看起来不可避免。大量的失业并不是必然的,但这可能会造成经济结构的巨大转变,需要想出组织工作与酬劳的新思路。

常见误解
「机器人的工作越多意味着人类工作越少」。工作不是零和(zero-sum)的:由一对机器人协助的工人可能更具工作效率,也因此需要更多这样的工人。没有机器人的帮助,一些领域的工作由人类完成可能不具备经济效益,或者一些工作单独的人或机器无法完成。同样,就像涂刷匠的刷子与滚筒:如果使用针尖大小的刷子一点一点的涂刷,我们就雇不起涂刷匠来涂刷一整间屋子了。

16.什么是无人机,自动武器,杀人机器人?
无人机是由人远程控制的飞行器;有些无人机可以携带武器(通常是导弹),这些武器的释放也是由人远程控制的。自动武器是可以自主选择和吸引攻击对象的装置。目前这类装置包括韩国非军事化区里的自动瞄准机枪和一些不同类型的船载反导弹系统。目前在技术上可以实现将无人飞机的控制员替换成完全自动的计算机系统,以达到致命自主武器系统的要求。致命自主武器系统是日内瓦会议裁减军备议题的讨论主题。杀人机器人是对具有轮动能力和行走能力的武器的统称,包括:船,飞行器以及人工智能的昆虫飞行器。

常见误解
「完全自主武器的出现还需要 20-30 年的研发」。得出这个预估时间的依据无从知晓,但是 20-30 年的时间跨度有点夸大所需的研发时间长度。目前自主武器的研发已经在全世界内大范围的开展,英国国防部已经宣称,对于一些简单对抗如海上战役,完全自动武器现在已经可以实施。

17.我们需要担心杀人机器人胡作非为或接管世界吗?
如果部署了自动化武器,它们也会有士兵那样的难题:有时难以分别朋友与敌人、平民与敌军。而且可能会有军事事故造成平民伤亡,或者机器人受到干扰与网络攻击。也因为后者,一些军事专家预测自动化武器可能需要封闭操作系统,没有电子通讯。如果系统行为不准确的话,这样做能防止有人凌驾于自动化控制器之上。但在可预见的未来,自动化武器可能会变得很常见,在有限的任务中被使用。但在全局规模上,它们很难自己编程出计划。

常见误解
我们可以按下「关闭」按钮。「关闭」按钮会使得自动化武器在网络攻击面前变得很脆弱。这样的通信频道在战争中也是如此。此外,通用智能系统会被赋予一项任务,防止自己的「关闭」按钮被按下。

18.人工智能的「存在风险」是什么?它是真的吗?
关于人工智能风险的早期警告曾是非常模糊的。I.J.Good 对于人工智能的可行性提出了自己的观点:「只要机器能够聪明到告诉我们如何保持对它的控制。」人们普遍意识到,在我们的星球上如果存在一个超级智能实体,可能会出现恐慌;但另一方面,我们也都清楚更加聪明的机器会更加有用,而且更加聪明不一定意味着邪恶。事实上,论据很简单。

假设超智能系统被设计成实现由人类设计者指定的某一目标,并假设这一目标不完全符合人类的价值观,人工智能形成的价值观(如果有)是非常难以确定的。
任何充分有能力的智能系统将倾向于确保其自身的持续存在并且获取物理和计算资源——不是为了他们自己的目的,而是为了更好地执行人类为它设定的任务。

现在我们问题的本质是你所要求的不是你所得到的。Norbert Wiener 是自动化和控制理论的先驱者,他在 1960 年写道:「如果我们使用——为达到某些目的——一些机器来代替我们做某些工作,我们最好能够清楚它们的确在按我们的想法工作。」Marvin Minsky 举了让机器计算 pi 这个例子,Nick Bostrom 则举了回形针的例子。对于人类而言,这些目标是根据人类视角提出的,这意味着计算机服务器或回形针覆盖整个银河系不是好的解决方案。一个具有能力的决策者——特别是能够通过互联网连接全球每块屏幕的智能——可能会对人类产生不可逆转的影响。幸运的是,这个问题相对比较明确,所以现在就可以开始解决。

常见误解
超智能机器将变得自发地产生意识、本能地变得邪恶或伤害人类。科幻小说作者通常假定上面这些一个或多个问题来设定机器与人类的对立面,这样的假设完全是不必要的。
我们人类发展人工智能系统,那么为什么我们要制造出来毁灭自己呢?有一些人类工智能「捍卫者」常常争辩道因为人类建立了人工智能系统,那么完全没有理由来支持这样的假设,即我们是在制造一个旨在毁灭人类的机器。这个没有抓住辩论要点,即哪个是邪恶意图,在设计者这一边还是代中间者这一边,这是存在存亡威胁的先决条件,这个问题也就是错误设定了对象。这将永远不会发生。

19.为什么人们会突然对人工智能如此担心?
从 2014 年开始,媒体就定期地报道如 Stephen Hawking、 Elon Musk、 Steve Wozniak and Bill Gates 那样名人的对人工智能的担忧。这些报道通常引用那些最绝望话语并省略实质担心的深层原因,通常就像「什么是人工智能现存风险」那样的问题。在许多情况下,担忧就是在阅读 Nick Bostrom 的书籍超智能(*Superintelligence*)之后产生的。另外一些当下关心这个问题的潮流也是因为人工智能的发展正在加速。这种加速可能是很多因素的集合,包括逐步完善的理论基础,它连接了很多的人工智能领域成为一个统一的整体。还有学术实验室能产出达到能够应用并解决现实世界的实际问题在人工智能方向商业投资的急剧增加也作为。

常见误解
如果人们是担心超人工智能就在某个角落,那么基本上人工智能研究者很少认为超智能机器就在我们周围某个角落。这并不暗示着我们应该等着,直到这个问题变得很严重!如果我们发现直径 10 英里的小行星将于 50 年后撞向地球,我们难道能够不消灭它并声称「我们会在五年的时候去关注它」?

20.人工智能在接下来的几十年里会取得怎样的进步?
这个领域好像并不要求人类级的通用人工智能能够达到成熟,而制造一些可信赖的高质量的产品也许在下个十年内有能实现。这就包括了语音识别、从简单的实际材料中提炼信息、对物体和行为的视觉识别、日常事物的机器人操作和自动驾驶。努力提升质量和扩展文本与视频的理解系统能制造更强劲的家用机器人,产生更为广泛有用的机器人,它能展示常识知识系统,一起学习并在遍历所有形式后表现得更好。还存在获取和组织科学知识的专业系统,它能管理复杂假说并可能对分子生物学、系统生物学和制药方面产生重大的影响。我们也许也会看到它在社会科学和政策制定有相同的影响,特别是在给它关于人类活动巨量的机器可读性数据之后,并如果机器是很可靠有用的,那么人们同样也需要机器去理解人类价值。公共和私人知识源,也就是知道和推理真实世界的系统,它不仅仅是数据的仓库,它会成为社会的组成部分。

21.什么是「价值定位(value alignment)」?它有什么要紧的?
价值定位(Value alignment)就是校准人机关系具体目标价值的任务,所以机器最优选择大概来说就是无论做什么都是最大化人类的幸福感。如果没有价值定位,那么超脱人类掌控的超智能机器的出现就是不可忽视的风险。

常见误解
「我们所有需要的就是阿西莫夫定律(Asimov’s laws)」。阿西莫夫定律本质上就是一些条款:它们给人类创造出各种故事情节提供灵感,但是基本对约束机器人没有什么有用的信息,因为它没有更多具体的细节。它们的基本结构为一组规则而不是效用函数,这是很有问题的:它们的词典式结构(例如任何对人类的伤害是比所有机器人的损害还要严格重要地多)意味着没有给不确定性或权衡留下空间。也许机器人只为了拍死一只在以后可能叮咬人类的蚊子会跳出悬崖毁灭了自己。另外,它也许会锁上人类汽车的门,因为坐车会提高人类受伤的可能性。最后,基于最大化人类效用的方法,对于第三条法则是没有必要的(机器人自我保护),因为机器人不保证自身的存在是不能为人类效用做出贡献的,还会令其拥有者十分失望。

22.对于存在主义风险(existential risk),人工智能社区做了什么?
许多关于人工智能的存在主义风险的讨论都是处于人工智能社区主流之外的,它们是从人工智能研究最初到最主要的反动力。在 2008 年的时候,AAAI(美国人工智能学会)就举行了个座谈会来讨论这个问题。座谈会中期报告就指出了存在的一些长期问题,并降低了一些人工智能对人类社会风险的想法。最近,在 2015 年 1 月 Puerto Rico 由 Future of Life Institute 主办的会议上,参会者和随后参加者共六千多人共同签署了一份公开信,强烈呼吁应该有关注这些风险问题的研究和提出一个更加详细的研究议程。随后,Elon Musk 为支持这方面的研究而拿出了 1000 万美元。另外,Eric Horvitz 已经建立个期望追踪风险问题并在需要时给出政策建议的长期研究。最后还有 AAAI 也已经建立了一个关注人工智能影响和伦理问题(Impact of AI and Ethical Issues)的常务委员会。

常见误解
「规约或控制研究是不可能的」。有些人辩称没办法避免消极后果,因为研究进展是无法停止和规约的。实际上这种声称本身就是错误的:在 1975 年关于基因重组的阿西洛马会议(Asilomar Conference)就成功地发起自愿活动中止了设计制造人类遗传性基因修饰,并一直持续成为了国际准则。另外,如果实现人类级的人工智能研究未加抑制(这个是很可能出现的),那么在方法上开始谨慎地研究确保人工智能系统在我们掌控下是十分重要的。

23.我能提供什么帮助吗?
如果你是一个人工智能研究者(或对这方面感兴趣的经济学家、伦理学家、政治学者、未来主义者和律师),从 2015 年波多黎各会议(Puerto Rico conference)在研究议程中就已经兴起了一个主题,即在主要的人工智能会议上会举行相应的研讨会,比如说 AAAI Fall 和 Spring Symposium series 等等。FHI、CSER、 FLI 和 MIRI 网站都有更多的信息。

常见误解
「完成这些是没什么困难的」。我们不管做什么都无法改变未来,这些事都终将发生。也没有什么能离真相更近一点的,我们不能预测未来,因为我们正在创造未来,这是我们集体的选择。

谷歌翻译里程碑:人工智能翻译推广到多语言

在过去的十年里,谷歌翻译(Google Translate)从最初仅支持几种语言发展到今天的 103 种,每天翻译的字词超过 1400 亿个。为了做到这一点,在任意两种语言之间,谷歌翻译都要运行多个翻译系统,这带来巨大的计算成本。如今,许多领域都正在被神经网络技术颠覆。谷歌确信他们可以利用神经网络进一步提升翻译质量。这要求谷歌重新思考谷歌翻译的算法架构。

今年九月,谷歌发表声明,基于神经机器翻译的谷歌翻译全新上线。(GNMT,Google Neural Machine Translation)。神经机器翻译是端到端的学习架构,它能从数百万的实例中学习,提供大幅提升的翻译效果。虽然功能得到了改善,但是让谷歌翻译把当下支持的 103 种语言全部采用神经机器翻译技术,却是一项巨大的挑战。

一周前,谷歌的工程师门发表了一篇论文 “谷歌的多语言神经机器翻译系统:使 Zero-Shot 翻译成为可能”(“Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation”),雷锋网在论文发表后第一时间做了覆盖。其中,Zero-Shot 翻译是指在完成语言 A 到语言 B 的翻译训练之后,语言 A 到语言 C 的翻译不需要再经过任何学习。 它能自动把之前的学习成果转化到翻译任意一门语言,即便工程师们从来没有进行过相关训练。

通过 Zero-Shot,谷歌解决了把神经机器翻译系统扩展到全部语言的难题。有了它,一套系统就可以完成所有语言的互翻。从前两种语言之间都需要多个翻译系统的情况,从此成为了历史。这套架构在翻译其他语言时,不需要在底层 GNMT 系统做任何改变。只需在输入语句的开头插入一个输出语种标记,就可以把结果翻译为任意语言。

下面这幅动图对该 Zero-Shot 系统的运作做了示意。

假设谷歌训练该系统做日语英语、韩语英语的互译,图中用蓝色实线来代表。 GNMT 系统就可以分享这四组翻译(日英,英日,韩英,英韩)的参数。这允许它把任意一组语言的翻译经验转到其他语言上去。学习成果转移和多语言翻译的要求,迫使该系统更好地使用建模的能力。

这启发了工程师们设想:我们能否让系统翻译一组它从来没有翻译过的语言?这可以用韩语日语互译的例子来说明。虽然该系统从未处理过韩日互译,但它利用之前的韩英、日英翻译学习成果,能进行水平不错的韩日互译。谷歌把这个过程称为 “zero-shot” 翻译,图中用黄虚线表示。谷歌宣称,这是世界上首例应用在机器翻译上的学习成果转移。

Zero-shot 翻译的成功带来了另外一个重要问题:这个系统是否在学习语言的通用表达(不管是翻译成什么语种,相同含义的语句都被系统使用相似的表达方式)?——类似于“国际语”或者中介语言?工程师们使用了 3D 图像展示系统的内部网络数据,以了解它在处理日、韩、英的任意互译组合时是如何运作的。


上方图片a部分(左)展示了这些翻译的几何结构。意义一致的语句用颜色相同的点代表。比方说,英译韩和日译英的两句话如果意思一致,就会是图上颜色相同的两个点。通过这种方式,我们可以很容易地区分不同颜色(含义)的点。b 部分放大了红色区的点,c 部分则对源语言进行区分。在同一组颜色的点里,我们看到含义相同但从属不同语种的句子。这意味着该系统必然对句子的语义进行了编码,而不是记忆一个短语到另一个短语的翻译。谷歌的工程师把这看作是系统中存在中介语言的标志。

谷歌在论文里面展示了更多的分析结果。他们希望这些发现不但对机器学习和机器翻译的研究人员们有用处,也能对语言学家和对单一系统怎么处理多语言学习感兴趣的人有价值。

今日 (美国时间 11 月 22 日),基于 Zero-Shot 的多语言神经机器学习系统正式登陆谷歌翻译。它目前被应用于新增加的 16 个语言组中的 10个,带来更高的翻译质量和简化的系统架构。我们可以期待在不久的将来,该系统会逐步支持更多的谷歌翻译语种。(三川)

从IBM到谷歌、微软,为什么大家都在投资人工智能技术?

[摘要]以肯定的是,这项技术将带来很多好处。到2018年,机器人将接管超过300万人的工作;到2020年,智能机器将成为超过30%的企业首席信息官的首要投资重点。

从Facebook到谷歌、微软,为什么大家都在投资人工智能技术?

Techcrunch近日刊登了一篇题为《投资人工智能技术带来的好处大于风险》(Investing in AI offers more rewards than risks。文章认为,就像信息技术一样,人工智能未来将对每个行业不可或缺,投资人工智能技术带来的好处大于风险。下面是文章的主要内容。

很难预测人工智能技术在未来10到20年将发生什么变化,但可以肯定的是,这项技术将带来很多好处。到2018年,机器人将接管超过300万人的工作;到2020年,智能机器将成为超过30%的企业首席信息官的首要投资重点。

从新闻撰写到客户服务,许多工作已经被越来越先进的人工智能取代,这些人工智能对人类的经验和能力具有越来越强的复制能力。人工智能曾经一度被看作是技术的未来,而现在它的时代已经到来,剩下的唯一问题是如何将它推向大众市场。

随着时间的推移,有些行业已经通过人工智能技术获益。在此过程中,人工智能技术也逐渐进步,并将在越来越多的应用中变得更加强大和有用。现在,那些有能力在人工智能领域进行重大投资的公司正在创造趋势,而那些无力在此领域进行投资的公司将会有落伍的危险。

风险与报酬

有人也许会认为,投资人工智能的风险与收益哪一个更大是不可预测的。但分析师预测,到2020年,全球5%的经济交易将由自主软件来处理。

人工智能的未来取决于那些愿意冒险尝试和持续投资该领域的企业。人工智能的许多进步来自军事领域。美国政府明年用于发展无人机的预算是46亿美元,美军目前使用的载人飞机未来将被无人机取代。人工智能无人机只需设置一个目的地,它们将能够自动躲避防空系统并到达目的地,而任何致命的决定仍然由人来做决定。

目前,业界的普遍看法是,相比在人工智能领域落后于其他公司,发展安全的人工智能技术是一种更好的选择,因为前者的风险更大。

在理论方面,美国麻省理工学院和英国牛津大学等科研机构都在努力绘制人类的大脑地图,并试图模仿人类大脑的工作。它们的研究成果提供了两种不同的研究路径—— 创造一种复制人脑的人工智能,或者模拟实际人脑。模拟实际人脑会带来一些伦理问题和担忧。

虽然这些问题仍然悬而未决,但人工智能系统已经为所有行业带来好处,这将会推动一些大型公司继续在这个领域进行投资。我们很容易理解,正如信息技术现在几乎对每个行业都不可或缺,人工智能技术将来也是如此。

计算机的未来

到现在为止,大多数的人工智能系统都是为了完成某种特定任务而编制好的一套程序。但是,人工智能的未来将取决于真正的机器学习。换句话说,未来的人工智能将不再依赖于直接的命令来理解它被赋予的任务。

传统的人工智能比较狭隘,只能按照事先编写好的程序完成给定的任务。但是,谷歌(微博)的DeepMind人工智能系统中没有为完成给定任务而设置的特定模块,而是被设计成一个自动学习系统。在AlphaGo击败世界围棋冠军李世石之后,DeepMind令人印象深刻。

配置了BIM Watson人工智能系统的自动驾驶汽车Olli,能够通过监测乘客的行为并与乘客互动来学习。它会存储每一个乘客的要求和目的地,并在未来的驾驶中使用这些信息为乘客服务。随着新的传感器不断增加,Olli变得越来越智能化。

但是,这些人工智能系统真的能做谷歌想让它们做的事情吗?例如,在预测终端用户的购买习惯方面,它能够比现在的软件做得更好吗?它能够通过自动关联过去的模型来实现供应链交易的最优化吗?这些任务比玩游戏和驾驶汽车更复杂。

人工智能的应用范围正在扩大,例如它已经可以预测人的健康问题。在不久的将来,更高级的人工智能应用将成为现实。

不久,人工智能将能够模仿人类复杂的决策过程,如提供投资意见或为病人提供处方。事实上,随着真正的机器学习的不断进步,一些更复杂、更危险的工作(如卡车驾驶)将完全由机器人接管,这将导致新的工业革命。届时,人们将从重复性的工作中被解放出来。

不投资人工智能的风险

投资的收益和风险都是不确定的。在商业上,所有新事物的已知风险就是不确定性本身。因此,风险主要来自错误的投资。

所以,在商业上,人们对所有陌生的新事物一般的看法是,相比参与新事物带来的风险,因为失去先机而落后的风险更大。(编译/谭思)

机器视觉是这样赋予改变未来的想象

视觉是人类观察世界和认知世界的重要手段。据统计,人类从外部世界获得的信息约有80%是由提觉获取的。这既说明视觉信息量巨大,也表明人类对视觉信息有较高的利用率,同时又体现了人类视觉功能的重要性。随着信息技术的发展,给计算机、机器人或其他智能机器赋予人类视觉功能,成为人类多年以来的梦想。

目前许多机器视觉技术已经实现了产品化、实用化。例如,指纹识别、车牌照识别、智能监控、人脸识别、工业产品的在线检测等。可以说,机器视觉技术在信息化时代,扮演着越来越重要的角色。

  ▋   什么是机器视觉?

机器视觉(machinevision)又常被称作为计算机视觉(computervision),是用计算机实现人的视觉功能一一对客观世界的三维场景的感知、识别和理解。

自20世纪50年代从统计模式识别开始的,计算机视觉当时的工作主要集中在二维图像分析、识别和理解上,如光学字符识别、工件表面、显微图片和航空照片的分析和解释等。1973年,英国的Marr教授应邀在麻省理工学院(MIT)的人工智能实验室创建并领导一个以博士生为主体的研究小组,从事视觉理论方面的研究。1977年Marr提出了不同于”积木世界”分析方法的计算视觉理论一一Marr视觉理论.该理论在20世纪80年代成为计算机视觉研究领域中的一个十分重要的理论框架。

到了80年代中期.计算机视觉获得了迅速发展,主动视觉理论框架、基于感知特征群的物体识别理论框架等新概念、新方法、新理论不断涌现。而到90年代.计算机视觉在工业环境中得到广泛应用,同时基于多视几何的视觉理论得到迅速发展。

  ▋   机器视觉与计算机视觉的区别

不过,张广军编著的《机器视觉》一书曾表示,计算机视觉(computervision)和机器视觉(machinevision)这两个术语是既有区别又有联系的。

他提出,计算机视觉是采用图像处理、模式识别、人工智能技术相结合的手段,着重于一幅或多幅图像的计算机分析。图像可以由单个或者多个传感器获取,也可以是单个传感器在不同时刻获取的图像序列。分析是对目标物体的识别,确定目标物体的位置和姿态,对三维景物进行符号描述和解释。在计算机视觉研究中,经常使用几何模型、复杂的知识表达,采用基于模型的匹配和搜索技术,搜索的策略常使用自底向上、自顶向下、分层和启发式控制策略。

机器视觉则偏重于计算机视觉技术工程化,能够自动获取和分析特定的图像,以控制相应的行为。具体地说,计算机视觉为机器视觉提供图像和景物分析的理论及算法基础,机器视觉为计算机视觉的实现提供传感器模型、系统构造和实现手段。因此可以认为.一个机器视觉系统就是一个能自动获取一幅或多幅目标物体图像.对所获取图像的各种特征量进行处理、分析和测量,并对测量结果做出定性分析和定量解释,从而得到有关目标物体的某种认识并做出相应决策的系统。机器视觉系统的功能包括:物体定位、特征检测、缺陷判断、目标识别、计数和运动跟踪。

  ▋   机器视觉的优势和应用领域

视觉的最大优点是与被观测的对象无接触,因此对观测与被观测者都不会产生任何损伤,这是其他感觉方式无法比拟的。

同时,机器视觉所能检测的对象十分广泛,人眼观察不到的范围,它也可以观察。例如,红外线、微波、超声波等人类就观察不到,而机器视觉则可以利用这方面的敏感器件形成红外线、微波、超声波等图像。因此可以说是扩展了人类的视觉范围。另外人无法长时间地观察对象,机器视觉则不知疲劳,始终如一地观测,所以机器视觉可以广泛地用于长时间恶劣的工作环境。

目前,机器视觉主要应用于以下领域:

(1)工业自动化生产线应用。产品检测、自动流水线生产和装配、自动焊接、PCB印制板检查以及各种危险场合工作的机器人等。将图像和视觉技术用于生产自动化,可以加快生产速度,保证质量的一致性,还可以避免人的疲劳、注意力不集中等带来的误判。

(2)各类检验和监视应用。标签文字标记检查,邮政自动化,计算机辅助外科手术.显微医学操作,石油、煤矿等钻探中数据流自动监测和滤波,在纺织、印染业进行自动分色、配色.重要场所门廊自动巡视,自动跟踪报警等。

(3)视觉导航应用。巡航导弹制导、无人驾驶飞机飞行、自动行驶车辆、移动机器人、精确制导及自动巡航捕获目标和确定距离等.既可避免人的参与及由此带来的危险,也可提高精度和速度。

(4)图像自动解释应用。对放射图像、显微图像、医学图像、遥感多波段图像、合成孔径雷达图像、航天航测图像等的自动判读理解。由于近年来技术的发展,图像的种类和数量飞速增长,图像的自动理解已成为解决信息膨胀问题的重要手段。

(5)人机交互应用。人脸识别、智能代理等。同时让计算机可借助人的手势动作(手语)嘴唇动作(唇读)、躯干运动(步态)、表情测定等了解人的愿望要求而执行指令,这既符合人类的交豆习惯,也可增加交互方便性和临场感等。

(6)虚拟现实应用。飞机驾驶员圳练、医学手术模拟、场景建模、战场环境表示等,它可帮助人们超越人的生理极限,”亲临其境”,提高工作效率。

  ▋   监控摄像与机器视觉

作为机器视觉的代表应用,以摄像机为核心的视频监控系统广泛应用与安保、交通、楼宇、工业等各个行业领域。随着数字技术越来越多地应用于视频监控系统中,极大地提高了系统性能,也扩大了它的应用范围。但是,监控摄像仍局限于一般的人工监视和事后录像分析上,这种做法需要大量的人工辅助,系统缺乏一定的自主判断能力。

然而,当机器视觉与图像处理技术加入之后,打破了原有的限制,得以设计出一个实时视频监控系统。该系统在实现视频监控同时,通过运用机器视觉技术,增加了视频变化检测和自动录像功能,系统能够自动识别场景变化,检测出运动目标并锁定,同时发出警告和启动存储装置。这样不仅可以节省大量存储空间,提高监控存储效率,减少不必要的回放,而且数据更加具有针对性。

人工智能如何效仿人类学习方法

导读:古有算盘,今有计算机,人工智能(Artificial Intelligence,AI)始终是人类永恒又美好的梦想。然而,漫漫的历史长河中人类前仆后继,虽然计算机技术已经取得了长足的进步,然而仍然没有一台机器产生真正的“自我”意识。谷歌大脑认出猫和狗,阿法狗打败了李世石,智能车拉着我们去兜风……尽管深度学习(Deep Learning)让AI在近期取得了诸多突破,但人工智能始终还是离不开“人工+智能”,离不开大量的人工标定数据去指导智能系统的学习。

e1ba41f1167547dd8bccc5aab21f50f320160905113231

ImageNet,COCO,Places,我们为了智能而不断人工,为了一劳永逸而不断地标定数据。然而,这并不是人类的最终梦想——不劳而获。直到Science封面文章Bayesian Program Learning(BPL,《Human-level concept learning tdivough probabilistic program induction》),像人类一样学习的人工智能又引爆了人类曾经的梦想,Google DeepMind的新成果Memory-Augmented Neuaral Networks(MANN,《One-shot Learning with MemoryAugmented Neuaral Networks》)让梦想又朝现实迈进了一步。

懒惰是人类社会进步的原动力,单点学习(One-Shot learning)的目标是不劳而获。不同于传统机器学习方法需要大量数据去学习和反复的训练,One-Shot通过单一的训练样本去学习并做出准确的预测。然而,One-Shot learning是一个永恒的挑战。由于现有的机器学习模型参数量庞大,小样本下很难在巨大的搜索空间中找到刻画本质属性的最优解。

因此当遇到新的任务(Task)时,传统学习算法只能通过新任务的大量样本低效率地去调整(finetuning)原有模型,以保证在杜绝错误干扰(Catastrophic Interference)的情况下将新信息充分涵括。BPL从认知科学的角度,基于贝叶斯过程模拟人类学习思路;MANN从神经科学的角度,基于记忆神经网络构造仿生学习模型。相比于贝叶斯过程学习(BPL),记忆增强神经网络(MANN)将One-shot Learning从应用驱动型推向数据驱动型从已有数据出发去主动挖掘One-shot Learning的方法。通过关注存储内容的外部记忆机制快速吸收新知识,并且仅利用少数几个例子就可以从数据中做出准确预测。

一、人的学习—记忆与学习(Memory & Learning)

从神经科学的角度来说,学习(Learning)定义为将经验(Experience)编码进记忆(Memory)的过程。鱼的记忆只有7秒,没有记忆的学习不是智能,鱼永远是只能在水里游的鱼。学习形成了不同类型的记忆:形象记忆(以感知过的事物形象为内容),情绪记忆(以过去体验过的情感为内容),逻辑记忆(是以概念命题为内容),动作记忆(以操作性行为为内容)……记忆指导学习,学习增强记忆。人类从刀耕火种,婴儿从呱呱落地,“学习→ 记忆→学习”贯穿着社会与个体。对于社会,古书典籍让经验得到记忆;对于个体,大脑皮层让知识得到记忆。

人的学习过程中(如下图),大脑对外部环境进行感知,注意机制对感兴趣的信息保持关注;在工作记忆中,新知识在旧知识的基础上通过检索被快速建立起来;而后经过神经元的加工整理,形成难被遗忘的长时记忆。由此,人不断地从生活经验中建立并整合知识,从而学会处理日益复杂的任务。在持续不断的学习过程中,对以往知识检索利用,使得人们只需要少量的训练就能快速地学会新的任务。综上,一个真正的智能系统应具备以下两方面的作用:

(1)在长时记忆系统中建立一个可检索的知识库;

(2)在交互过程中持续不断的整合更新知识库。

20a368321676400cb328a6614fa0f6db20160905113000

二、MANN——学会学习(Learning to Learn)

埃德加?福尔在《学会生存》中指出:“未来的文盲不再是不认识字的人,而是没有学会怎样学习的人 。 ”学会学习(Learning to Learn)不仅仅是教育界面临的问题,也是机器学习中面临的问题:未来的智能不再是能干活的机器,而是学会怎样学习的机器。“学会学习” 中的“学习”即为元学习(Meta-learning)。行为学意义上认为元学习是学习行为本身的改变;信息学意义上认为元学习是关于获取知识和经验的学习。人工智能意义上的元学习一般指的是一种迁移学习(Transfer Learning)方案,通过已有的知识辅助新知识的学习,照着葫芦画瓢,照着猫画老虎。可规模化的元学习方案应满足以下两个要求

(1)知识必须以稳定且可寻址的方式存储;

(2)存储容量不与参数规模相关。

长短时模型(Long Short Term Model,LSTM)通过隐性的共享记忆结构,不完全地实现知识的存储。直到了神经图灵机(Neuaral Turing Machine,NTM)的出现,NTM引入带记忆的神经网络去模拟大脑皮质的长时记忆功能,实现用极少量新任务的观测数据进行快速学习。不同于传统神经网络,NTM(如下图)通过控制器(Controller)对输入输出(Input/Output)向量进行选择性地读写(Read&Write Heads)操作,实现与外部记忆矩阵(Memory)进行交互。基于强泛化能力的深度神经网络架构,并综合长时观测的记忆模型与新观测的匹配信息对存储内容进行有效地更新。

afef17ea14674214a915438bc5cfbbd020160905113021

相比于神经网络图灵机,记忆增强神经网络(MANN)提出了一种新读写更新策略——LRUA(Least Recently Used Access)。有别于NTM由信息内容和存储位置共同决定存储器读写, MANN的每次读写操作只选择空闲或最近利用的存储位置,因此读写策略完全由信息内容所决定。这种更为灵活的读写策略更适用于时序无关的分类回归问题。MANN结合了更灵活的存储能力和强泛化的深度架构,实现知识的更为高效的归纳转移(Inductive transfer)——新知识被灵活的存储访问,基于新知识和长期经验对数据做出精确的推断。

三、终极理想——终身学习(Life-long Learning)

活到老学到老,人的一生是学习的一生。终身学习(Life-long Learning)是一种能够存储学习过的任务知识,并能利用旧知识快速学习新任务的完整系统方案。相较于传统机器学习方法,终身学习凭借任务间的知识共享和知识库的知识积累,突破了学习过程在样本集和时间上的限制,为实现高效及高度智能化的系统提供可能。 12f65ee6e9a247bb8e3b34bd0ebd7f8f20160905113000

一个终身学习系统包含以下基本组成部分,各模块间的相互作用共同实现“活到老学到老”。

(1)知识仓库(Memory)

记忆是智能的基础,终身学习系统期望充分利用已学过的知识辅助学习。知识仓库用于存储学习过程中需要长期存储的知识。其中可分为基础知识和抽象知识两类,分别支持知识从简单到复杂的纵向迁移,以及相关任务之间知识的横向迁移。

(2)任务队列(Controller)

任务队列考虑知识的学习顺序对系统的泛化能力与学习代价的影响。学习顺序设置对学习有着重要的影响,因此终身学习系统期望合理设置学习顺序以越快越好地进行学习,循序渐进,抛砖引玉。此外,高效的任务队列也为终身学习系统提供主动学习的可能,系统可以主动优先学习对关键任务。

(3)知识迁移(Read)

知识迁移是终身学习系统的基础。知识迁移从知识仓库中选择对新知识(目标领域,Target Domain)有帮助的旧知识(源领域,Source Domain)进行迁移。因此要求终身学习系统应具备有效度量并创造正迁移条件的能力,充分利用已经学到的任务知识,尽可能高效地学习新任务——迁移什么?如何迁移?何时迁移?

(4)知识整合(Write)

知识整合是终身学习系统中至关重要的环节,以保证知识仓库能得到及时的更新。取其精华,去其糟粕,知识在整合过程中,系统应对知识进行相应的筛选,在兼顾不损害原有知识的前提下,尽可能整合有利于迁移的新知识。

 

webwxgetmsgimg

参考文献

[1] Santoro A, Bartunov S, Botvinick M, et al. One-shot Learning with Memory-Augmented Neural Networks[J]. arXiv preprint arXiv:1605.06065, 2016.

[2] Lake B M, Salakhutdinov R, Tenenbaum J B. Human-level concept learning tdivough probabilistic program induction[J]. Science, 2015, 350(6266): 1332-1338.

[3] Graves A, Wayne G, Danihelka I. Neural turing machines[J]. arXiv preprint arXiv:1410.5401, 2014.

[4] Ruvolo P, Eaton E. ELLA: An Efficient Lifelong Learning Algorithm[J]. ICML (1), 2013, 28:507-515.

解析:人工智能、机器学习、深度学习关系

AlphaGo击败李世石一时间引起了众多媒体的关注,尽管已经过去一段时间。而人工智能、机器学习和深度学习这些词已然成为媒体热词,媒体用他们用来描述 DeepMind 是如何获得成功的。

首先来说一下,人工智能、深度学习、机器学习三者之间的关系,区别三者最简单的方法:想象同心圆,人工智能(AI)是半径最大的同心圆,向内是机器学习(Machine Learning),最内是深入学习(Deep Learning)。

webwxgetmsgimg

自从几位计算机科学家在 1956 年的达特茅斯会议上提到这个词以后,人工智能就萦绕在实验研究者们心中,不断酝酿。在此后的几十年里,人工智能被标榜为成就人类文明美好未来的关键。

在过去的几年里,特别是2015 以来,人工智能开始大爆发。这在很大程度上提高了 GPU 的广泛可用性,使得并行处理速度越来越快,使用更便宜,而且功能更强大。整个大数据运动拥有无限的存储和大量的数据:图像,文本,交易,映射数据等等。

有关人工智能:

1.过去二十年,在大数据集的数字化、建立管理大数据集的基础框架和大数据计算范式上的进展,是解释本世纪先后将重点放在数据科学和人工智能上的主要原因。

2.一旦我们数字化了数据,使得他们可以被程序处理,下一步就是撬动自动化和对未来的预测。随着预测能力的增加,似乎更多“智能”的方面展现了出 来。于是我们将“数据科学”这样的术语改为“人工智能”。事实上这二者之间并没有什么明显的差别,只是感觉上的新奇和困难程度不同而已。新奇度和难度随着时间是呈正态分布。今天“人工智能”给人的感觉就和昨天的“数据科学”一样。

3.从数据中学习的AI叫做机器学习(Machine Learning)。传统的机器学习从原始数据中提取人们可以识别的特征,然后通过学习这些特征产生一个最终的模型。

  有关机器学习:

 机器学习是一种实现人工智能的方法。

1、机器学习最根本的点在于使用算法来分析数据的实践、学习,然后对真实的事件作出决定或预测。而不是用一组特定的指令生成的硬编码软件程序来解决特定任务,机器是通过使用大量的数据和算法来「训练」,这样就给了它学习如何执行任务的能力。

2、机器学习是早期人工智能人群思考的产物,多年来形成的算法包括决策树学习、归纳逻辑编程、聚类、强化学习、贝叶斯网络等等。正如我们所知,所有这些都没有实现强人工智能的最终目标,而早期的机器学习方法甚至连弱人工智能都没有触及到。

4、事实证明,多年来机器学习的最佳应用领域之一是计算机视觉,尽管仍然需要大量的手工编码来完成这项工作。人们会去写手工编码分类器,如边缘检测滤波器,以便程序可以识别一个目标的启动和停止;进行形状检测以确定它是否有八个侧面;同时确保分类器能够识别字母「s-t-o-p.」从那些手工编码分类器中,机器就会开发算法使得图像和「学习」更有意义,用来确定这是否是一个停止标志。

结果还算不错,但这还不够。特别是在雾天当标志不那么清晰,或有一棵树掩盖了标志的一部分时,就难以成功了。还有一个原因,计算机视觉和图像检测还不能与人类相媲美,它太脆弱,太容易受到周围环境的影响。

有关深度学习:

现在深度学习在机器学习领域是一个很热的概念,不过经过各种媒体的转载播报,这个概念也逐渐变得有些神话的感觉:例如,人们可能认为,深度学习是一种能够模拟出人脑的神经结构的机器学习方式,从而能够让计算机具有人一样的智慧;而这样一种技术在将来无疑是前景无限的。那么深度学习本质上又是一种什么样的技术呢?

 深度学习是机器学习领域中对模式(声音、图像等等)进行建模的一种方法,它也是一种基于统计的概率模型。在对各种模式进行建模之后,便可以对各种模式进行 识别了,例如待建模的模式是声音的话,那么这种识别便可以理解为语音识别。而类比来理解,如果说将机器学习算法类比为排序算法,那么深度学习算法便是众多排序算法当中的一种(例如冒泡排序),这种算法在某些应用场景中,会具有一定的优势。

1.过去十年中,神经网络,一种类似哺乳动物大脑突触连接关系的机器学习结构,得以复兴。神经网络不需要人为提取特征。原始数据进入学习算法之后不需要任何的人为工作,我们把它称之为“深度学习”。

2.尽管深度学习技术和学习模型已经存在了几十年了,但是我们现在才看到其理论创新和基于经验的突破,因为基础架构和数据的实用性才刚刚成熟。2006年,NVIDIA推出基于GPU的CUDA开发平台,成为了深度学习发展历史上的风水岭。

3.正是由于深度学习脱离了人为构建特征使其得以成为一种自然的学习工具。很多技能,早在有能力以复杂的数学方式提取特征之前,我们就已经学会了。这些技能是我们自然而然学会的,难以用高度的特征归纳。通过传统的机器学习手段,是很难凭人类的直觉得出,或是构造出高维的精确特征的。

4.早在我们有能力构建复杂的语义(semantic)之前,我们就已经在机器视觉和自然语言处理等方面取得了很好的成绩。但是学会这些技能不需要我们有数学推理的能力,更不要说人为有意构建的高层语义了。

5.深度学习在广义的高维机器学习问题上已经展现了突破性的成果。其中覆盖的领域包括基因组学,油气,数位病理学甚至是公共市场。

有关强人工智能:

Artificial General Intelligence(AGI)是指强人工智能,这是一种人类级别的人工智能,在各方面都能和人类比肩,人类能干的脑力活它都能干。不仅仅是当今人工智能所应对的局部、特定的问题,未来 可能出现的复杂繁冗任务对它来说都不在话下,当前的人工智能需要人类进行编程,但不排除未来的某一天它可以自动编程。因此,AGI的定义其实也不太准确。

1、如果说AGI定义尚难,尚不能预测它的发展。勒存和百度首席科学家吴恩达等人都认为不必在AGI的预测上浪费时间,因为目前人类要达到这个水平还远的很。人工智能还需要跨越一个几年甚至几十年的寒冬。吴恩达做了个比喻,人类对未来人工智能的担忧简直比得上对半人马座α星系的幻想(注:由于半人马座α星系统距离地球很近,许多科幻小说都“认为”这里存在发达的宇宙文明)。

2、谷歌DeepMind联合创始人肖恩·莱格认为,现在开始研究人工智能安全是绝对有益的,它帮助我们建立起一个框架,让研究人员在这个框架内朝着积极的方向去发展更聪明的人工智能。

3、AGI会拥有类似人类的智力,但是却不会有类似人类的外表,因为我们并不了解自己内在的“目标函数”。目前,我们在特定的领域内训练计算机,使他们犯的错误最小化。除非我们知道我们自己的目标函数是如何校准的,否则,即使AGI会很智能甚至有可能会有意识的展现,但也绝对不会完全像人一样。

4、人们会通过输入输出的通道来限制和规范AGI的行为。未来会有很多关于AGI善恶的争论,关于增加其好的能力是否会同时使其产生潜在的恶意行为。无人驾驶汽车是一个早期、但是很有力的例子。

webwxgetmsgimg 

谷歌:云自然语言API

65

将自然语言处理(NLP)的先进成果,从前沿研究的小世界里拿出来,送到普通的数据科学家和软件工程师手中,这已经成为一场运动。7月20日,谷歌也加入进来,发布了测试版的云自然语言API。谷歌的NLP API让用户可以利用如下三个核心的NLP特性:

情感分析——分析语言的基调,比如积极或消极

实体识别——识别语言中不同的实体,比如人或组织

语法分析——识别语言中的各种词性,比如句子X包含3个名词。

这些工具使用了谷歌的深度机器学习算法,这也是其API与其他自建的数据科学工具的不同之处。

NLP软件是一种构建用来理解人类语言或文本的程序。像谷歌和IBM这样的科技巨头发布了大量便于开发人员使用的API,让这类软件进入了主流应用。在谷歌的一篇博文中,开发工程师Sara Robinson使用该API的实体识别特性识别《哈利·波特》中的人物和地点(因为她不会念咒语)。接下来,她比较了自己开发并维护所有软件和使用NLP API的差别:

我可以编写自己的算法,找出这个句子里的人物和地点,但是那会很困难。而且,考虑到相同的实体会使用不同的词语描述,如果我希望针对涉及到的每个实体收集更多的数据,或者在成千上万的句子里分析实体,则会更加困难。

按照Robinson的说法,从头构建NLP软件特别困难,因为即使是在开始真正的工具开发工作之前,数据收集、预处理和训练就有太多的事项需要注意。像谷歌提供的这种NLP API,让用户可以利用NLP算法的强大功能,而又不必应对复杂的高等数学计算、工程和数据建模所带来的巨大开销。

Watson的Conversation API也是最近出现的NLP API。借助该API,你可以使用NLP解释不同的用户指令,并将这些指令传达给不同的智能家居软件,比如控制灯光的应用。Watson API有交互式的Swagger文档,你可以在里面测试类似“开灯”和“天气怎么样”这样的请求。谷歌的NLP API面向更为广泛的NLP使用场景,而Watson的API主要是为人通过文本或语言同机器通信提供便利。它基于日益流行的IoT(物联网)技术构建。在IoT环境里,NLP是同智能汽车、家居、甚至卫生纸筒通信的理想介质。

Facebook采取了一种更为直接的路线,即向更大的技术社区公布内部使用的NLP代码。今年7月,他们把词汇表征学习和句子分类库fastText的所有源代码都发布在了GitHub上。虽然开发人员不会完全忠于一个干净的API,但能够从Facebook的代码创建分支,让开发人员可以在更高的层面上参与到现有的NLP数据科学社区。在社区环境里,这个库很容易衍生出更多的NLP API和库。无论形式如何,可以确定的是,NLP离普通大众越来越近。

webwxgetmsgimg

作者:头条号 / 科技动能

英特尔的“动态外科手术”

作者:粉红熊熊

英特尔中国研究院于近期提出了一种名为“动态外科手术”的神经网络压缩算法,获得了业内的广泛关注以及国内外专家的高度评价。利用该方法,研究人员可以在保证原始模型性能不降的前提下大幅度压缩网络结构。让我们带您一起深入浅出地理解这一算法。

如果您有定期关注IT、互联网新闻的习惯,想必不会对深度学习(deep learning)一词感到陌生。深度学习的概念源于早期的针对人工神经网络的研究,其理念的核心在于通过深层神经网络(deep neural networks)完成对样本数据抽象表示的“学习”。自2006年深度学习的概念被首度提出,如今已经极大程度地改变了人工智能乃至整个互联网、IT领域的生态。经过十年的发展,该技术在包括人脸识别、语音识别、物体检测和自然语言处理在内的多个领域都表现出了顶尖的性能。

57ccdc54ea4d4

主流的深度网络之一:深度卷积神经网络

(图片来源:A tutorial on deep learning [3])

然而,深度学习距离“天下无敌”也还有一定的距离。制约其发展的主要瓶颈之一是深度网络极高的模型复杂度和消费级电子产品极有限的硬件资源之间的矛盾。事实上,时下许多主流的深度网络都包含千万级甚至是过亿的学习参数,而如此海量的参数给模型的存储和计算都带来了相当大的压力。因而,如何对训练好的深度网络进行压缩就成了困扰研究人员的一大难题。2015年的论文Learning both weights and connections for efficient neural networks提出了一种网络剪枝(network pruning)算法,可以在保持数据表示能力的前提下,将深度网络中的学习参数压缩10倍以上,在学界引起了广泛讨论。该论文也被发表在机器学习领域的顶级国际会议神经信息处理系统大会(Conference on Neural Information Processing Systems,以下简称“NIPS”),获得了巨大的影响力。

57ccdc55b4f42

神经网络剪枝策略

(图片来源:Learning both weights and connections for efficient neural networks [1])

今年,英特尔中国研究院认知计算实验室郭怡文、姚安邦和陈玉荣三位研究员在深度学习领域取得突破性进展。他们所提出的动态外科手术(dynamic network surgery)算法,极其有效地解决了处理大型网络时重训练时间长,误剪枝率高的问题。利用该算法,我们可以轻易地将LeNet和AlexNet这两个经典网络的参数总量分别压缩108倍和17.7倍。

57ccdc56e5d69

英特尔中国研究院认知计算实验室郭怡文、陈玉荣和姚安邦

该算法采取了剪枝与嫁接相结合、训练与压缩相同步的策略完成网络压缩任务。通过网络嫁接操作的引入,避免了错误剪枝所造成的性能损失,从而在实际操作中更好地逼近网络压缩的理论极限。

57ccdc5839cf2

动外科手术策略

(虚线代表当前被切断的网络连接,而绿线代表通过嫁接重新建立的网络连接[2])

目前,该方法已被撰写成文,并将发表在本年度的NIPS会议上。作为机器学习领域的顶级会议,NIPS近年来一直保持着极低的论文接收率。而获准发表的论文也都会得到业内人士的极大关注,从而对机器学习的发展产生相当的推动作用。据悉,NIPS本年度收到的稿件总量约为2500篇,而接收率还不到23%。相信英特尔中国研究院的这项工作将会对学界和工业界产生巨大的影响。

图片来源:

[1] Han, Song, et al. “Learning both weights and connections for efficient neural networks.” Advances in Neural Information Processing Systems, 2015.

[2] Guo, Yiwen, Yao, Anbang and Chen, Yurong. “Dynamic network surgery for efficient DNNs.” Arixv preprint, arXiv:1608.04493v1, 2016.

[3] Yu, Kai. “A tutorial on deep learning.” China Workshop on Machine Learning and Applications, 2012.

人工智能、机器学习和神经网络到底是什么?

随着“人工智能”走出实验室、逐渐有了实际的应用场景,它成为了一项可能在不久的将来彻底改变人类社会的基础技术,也成为了很多人最爱讨论的话题。但是,AI(人工智能)、机器学习、神经网络,这些词看着潮,究竟是指什么呢?

别慌,我们试着举几个简单的例子来解释一下。

人工智能

“科技潮人”小明爱玩各种数码产品,生活里也经常使用打车和订餐软件。每天回家前他都会用手机遥控打开家里的空调,和朋友约饭的时候也会在地图软件上查好地址通过微信群发。

小明喜欢的几项功能,比如用手机遥控空调,其实是通过几套程序实现的。

简单来说,编写一个普通的程序,其实是告诉计算机一套处理方法。比方说一个计算器,编写的时候就告诉它加减乘除法和开平方的定义,告诉它一个长算式里哪种计算优先级高(比如乘除>加减)。编写好了之后,这个程序就是计算器了,然而它除了加减乘除和开平方之外,别的什么都不能做。你不能用它来编写文档,也不能用它来叫车和订餐——因为编写者没告诉它除了算数以外的事。

但小明不想要一个程序控制空调、一个程序导航、一个程序刷脸记考勤,他希望所有的问题都能一站、自发地解决,这就需要人工智能。

这种新的计算机程序像人脑一样,是可以举一反三的。比如去年美国 MIT 的研究者就开发出了一种人工智能,先让它学习几个来自梵文的字母,它就能从之后数千个各种语言字母当中找出所有的梵文字母。

它们可以认字、听懂人说的话、识图,甚至通过一张图中所有的物体和他们的位置关系,来判断图中正在发生什么。比如,人工智能有能力识别下图中摩托车、驾驶者、头发的颜色、围观群众、马路等元素,回答一些基本的问题。在未来经过训练后,它也有能力做出“这是一次同性恋骄傲大游行活动”的判断。

这样的人工智能系统,都是“弱人工智能”。 人类对于人工智能的终极企图是全知全能,也叫做“强人工智能”,它不但善于思考,学习能力超强,还能够自我进化。如果你看过电影《超验骇客》,约翰尼·德普实验的人工智能学家威尔·卡斯特在自己生命的遗留之际,将自己的大脑上传到了电脑里。这个人工智能只用了几个小时就几乎接管了全球所有最主要的网络系统,包括政府、军方、银行等等;过了几年,它已经统治了世界,用极高的效率开发出革新的医疗技术,不但能够控制全球所有人的思维,还用智能化的生物微粒直接捏出了一个活的威尔·卡斯特。

尽管强人工智能至今还没有诞生,但是弱人工智能也已经非常了不起,它是怎样实现的呢?

机器学习

机器学习是目前实现人工智能最主要的方式。再拿小明举个例子:

小明喜欢吃橙子,他总结出一个规律:颜色越深,个头越大,橙子越甜。但他新尝试了美国加州大脐橙之后,发现之前的经验不管用了:新的橙子,颜色越浅越甜。而小明的室友喜欢吃汁多的橙子,于是小明又学到一条:越软的橙子汁越多。

掌握了这条规律,小明跑去希腊旅游时,按照之前的经验买了橙子,却一点都不好吃!原来,这里卖的橙子是从别的地方进口的,绿色的好吃橙色的不好吃。

这种不断尝试的办法实在太笨了,不如写一个程序来搞定?这就到了机器学习的范畴。其实真实的程序很复杂,但其逻辑并不难理解:

首先,小明需要确定所有的橙子的特征,包括并不限于大小、颜色深浅、软硬、产地等等,在这些特征之间建立一些联系,比如 A 地生产的橙子越大越好吃,B 地生产的越软水越多等等,然后再把所有这些数据都输入到程序里。

现在,小明去菜市场,不再需要记住自己在哪个菜市场,去的哪个摊位,买的哪个产地的橙子,而是直接拿着一个橙子,把它的属性输入到这个程序里,程序会自动跑出“甜不甜”、“汁多不多”,甚至更直观的“室友爱不爱吃”的结果。测试的多了,这个程序还会自动学习新的规律。

这些输入给程序,以及程序自行学习到的规律,就是机器学习算法。这个程序就是一个机器学习的系统。

可机器又是怎么“学习”的呢?

神经网络

人类至今尚未明白人脑的工作原理,不过这没关系,我们可以先复制出一个人脑的计算模型:一件事情并非像计算机程序那样输入指令输出结果,而是在人脑的多个神经元传递,每个神经元都对信息进行自己的加工,最后输出的结果。计算机科学家用同样的方式,在输入和输出之间,加入了非常多的“节点”,每个节点会对前一个节点传来的数据,按照自己拥有的一个权重系数进行加工,有时候节点还会分层。这就是“人工神经网络”(Artificial Neural Networks,ANN)。

我们还是用小明的选橙子程序来举例。即便小明已经输入了自己大量的经验,这个程序仍然不是一开始就总能准确地判断出橙子好不好吃的。它仍需要进行大量的训练:小明输入一个新橙子的特征,程序根据这些特征计算出各个结果的概率。

比方说,小明输入“美国加州大脐橙”、“颜色浅”、“软”,结果程序给出甜的概率 85%,不甜的概率 15%,汁多的概率 50%,水不多的概率 50%,室友爱吃的概率 66%,不爱吃的概率 34%。结果小明尝了一下,发现的确很甜,但汁并不多,室友吃了不是很满意,程序可以回去自动调整某些与“汁多不多”有关节点的权重。通过不断地用最终结果去返回调试,这个神经网络给正确结果赋予的概率会越来越高,反之给错误结果的概率会越来越低。

历史上,科学家还设计过多层的神经网络,每一层都会对前一层传来的结果进行再次加工,目的是模拟出一种“深思熟虑”的感觉,但最后发现结果准确度并没有提高,有的时候还会陷入误区,就像人容易朝着一个思路越陷越深,最后钻牛角尖了一样。随着技术进步,卷积神经网络(CNN)、循环神经网络(RNN),以及长短时记忆单元(LSTM)等新玩意的诞生,让这一问题得到改善。现在,最厉害的神经网络技术不但已经非常接近人脑,还排除了很多人脑自身存在的低效的思维方式。

简单来说,神经网络是一种模拟人脑,取其精华去其糟粕的计算架构;利用神经网络进行机器学习,则让计算机不再只是执行命令的机器,具有了一定程度上举一反三的能力。

而将这个能力利用到造福人类的地方,就叫人工智能。

webwxgetmsgimg

Facebook开源机器视觉工具,计算机视觉新阶段

在脸书的人工智能研究中心(Facebook AI Research, FAIR),我们正在将计算机视觉技术推向一个全新的阶段——我们的目标是让计算机能像人类一样,从像素的水平去分析图像和物体。

123

将物体细致到一个个像素

当我们人类看一张图片时,为了分辨不同的物体,我们能细致到一个个像素的水平。在脸书的人工智能研究中心(Facebook AI Research, FAIR),我们正在将计算机视觉技术推向一个全新的阶段——我们的目标是让计算机能像人类一样,从像素的水平去分析图像和物体。在过去的几年当里,深度卷积神经网络的发展和前所未有的强大计算架构的到来,已经让计算机视觉系统在精确度和计算能力方面得到了迅速提升。

我们已经见证了在图像归类(这张图像中有什么?)以及物体检测(这些物体在哪儿?)领域的巨大进步。请参阅下图(a)和图(b)。但这些还只是计算机理解任意图像或视频中相关视觉内容的起步阶段。近期,我们正在设计一种能够在图像中识别和区分每一个物体的技术,如下面最右边的图(c)所示,这是一种将会带来全新应用前景的关键性技术革新。

124

驱动这项进步的主要的新算法是DeepMask1分割框架加上我们的新SharpMask2分割提纯模块。同时,它们使得FAIR的计算机视觉系统变得能够检测和精确地勾画出图像中每一个物体的轮廓。我们这项识别过程的最后一个阶段使用了一种特殊的卷积网络,我们称之为MultiPathNet3,目的是用其中包含的物体类别(例如:人、狗、羊)来标注每一个目标掩码图像。之后我们会回来简单介绍这里面的细节。

我们正在编写DeepMask+SharpMask以及MultiPathNet的代码,同时还有我们的研究论文和相关的演示小样—这些资源将对所有人开放,我们希望它们能够有助于计算机视觉领域的快速进步。在我们继续改进这些核心技术的同时,我们也将继续发表我们最新的成果,并且不断更新我们面向大众开放的一系列开源工具。

从像素点中发现规律

让我们一起来看看这些算法的建立基础。

请看下面的第一张图(左图)。你看到了什么?一个摄影师正在操作他的老式相机。一块大草坪。背景当中的建筑物。同时你也可能注意到了无数其他的细节。但计算机看不到这些:一张图像被编码成一个数列,而里面每个数都代表着像素点的颜色参数,就如第二张图片(右图)所表示的那样。那么,我们该怎样让机器视觉从像素点走向对一张图像的深层次理解呢?

125

这不是一个简单的任务,因为物体和场景在现实世界中千变万化。物体的形状、外表,它们的大小、位置,它们的质地和颜色等等,都在变化。再加上真实场景、变化的背景以及光线条件固有的复杂性,以及我们这个世界本身的丰富多彩,你看,这下你可以窥见这个问题对于计算机来说是多大的难题了吧!

让我们走进深度卷积神经网络的世界。

比起试图用编程方式来定义一个基于规则的物体检测系统,深度网络是相对更简单的架构,这个构架中成千上万的参数是训练得到的而不是被设定的。这些网络自动从成百上千已被标注的样例中学习内在的模式,并且我们已经看到,当这样的样例数量足够多的时候,神经网络已经可以开始集成一些新奇的图像了。深度网络特别适应于回答关于图像的是/否的问题(分类)——例如,图像中是否包含了一只绵羊?

  分割物体

那么,我们如何在将深度网络应用到检测和分割当中去呢?我们在DeepMask当中采用的技术是把分割过程看做是一系列的二元分类问题。首先,对一副图像中的每一个(有重叠的)小块区域,我们提出问题:这个区块是否包含物体?接着,如果第一个问题的答案是肯定的,那么,对这个区块中的每一个像素点,我们提出问题:这部分像素是否是这个中心物体的一部分呢?我们采用深度网络来回答每一个是/否问题,并且通过聪明地设计我们所使用的网络,每一个区块和像素的计算结果将是共享的,这样,我们就可以快速地发现并且分割图像中的每一个物体。

DeepMask使用的是一种相当传统的正反馈深度网络设计。在这样的网络中,随着网络阶段的逐渐深入,信息变得越来越抽象,并且在语义上意义丰富。例如,深度网络在浅层的分析可能可以抓住一些边缘或者大概的信息,而更深层次的分析则倾向于抓住一些例如动物面貌或肢体这类更加语义丰富的信息。设计上讲,这些深层分析所具有的的特征是在一个相当低的空间分辨率下计算的(既是出于计算上的原因,也是为了在像素位置小幅变化的情况下能保持结果稳定)。这为掩码图像的预测带来了一个问题:深层次的特征虽然能够抓住物体的整体形状,但却不能精确地分割物体的明确界限。

因此我们转向SharpMask。SharkMask细化了DeepMask的输出结果,它能输出具有更高保真度的图层,以便更准确地勾画出物体界限。如果说DeepMask在网络中通过正反馈的方法预测了一个粗略的物体轮廓,SharpMask则在深度网络中利用逆向信息,通过逐渐使用更浅层次的信息来提炼DeepMask的预测结果。这么想吧,为了抓住物体的整体形状,我们必须对我们正在观察的物体(DeepMask)具备一个高度的理解,但为了更准确地描述物体的边界,你需要回头去从低至像素的角度观察它的特征(SharpMask)。其实,我们的目标就是在运营成本最小化的前提下充分利用网络中各层次的信息。

下面是一些由DeepMask绘制,并由SharpMask提炼的一些例子。为了使这些可视化结果简单易懂,我们只展示了其中极好地匹配了实际物体的一些预测掩码图像(人工注解)。请注意,这个系统还不是完美的,图中具有红色边界的物体正是那些由人工标注,但被DeepMask忽视掉了的物体。

126

物体分类

DeepMask对某个特定的物体类别一无所知,因此它虽然能勾画出一只狗和一只羊,但无法区分它们。而且,DeepMask也不会精挑细选,对无关紧要的局部也会生成掩码图像。因此,我们怎么缩小相关掩码图像范围,识别实际呈现之物?

正如你所期待的,我们再一次求助于深度神经网络(deep neural network)。给定一个由DeepMask产生的掩码图像,我们训练了另外一个深度神经网络来对物体的掩码图像进行分类(“无法分类”也是一个有效答案。)。

这里,我们遵循了一个基本的模式叫做 Rigion-CNN,或者缩写为RCNN,(这个领域的开路先锋Ross Girshick现在也是FAIR的一员了。)RCNN分两个阶段:第一个阶段是将注意力吸引到某些特定的图像区,第二个阶段使用一个深度网络来确认呈现的物体。

开发RCNN时,第一阶段的处理还非常原始,通过使用DeepMask来作为RCNN的第一阶段,同时开发深度神经网络的能力,我们在检测的准确性上获得了显着的提升,也获得了对物体进行分割的能力。

为了进一步提高性能,我们把精力集中在一个特别的神经网络构架上来对掩码图像进行分类(RCNN的第二个阶段)。如我们所讨论的,真实世界的图片里包含了物体的各种尺度,各种背景,各种杂乱,各种隐藏。标准的深度网络在这种情况下就有困难了。为了解决这个问题,我们搭建了一个改良的神经网络,叫做MultiPathNet(多路径网络)。

就像它的名字,MultiPathNet允许信息从网络的多个路径流通,使得它可以在不同的尺度和不同的环境背景下找到信息。

总而言之,我们的物体检测系统遵循三步走程序:DeepMask产生最初的物体掩码图像,SharpMask 细化这些掩码图像,最终MultiPathNet 确认由各个掩码图像勾画的物体。

以下是几个我们整套系统产生的输出例子:

127

不完美也不寒碜。要知道,几年前实现这些功能的技术根本不存在!

大范围的应用

视觉识别技术应用范围很广。在此基础上,计算机可以识别图片中的物体,比如,无须为每张照片加上标签,即可更容易地搜索某些图片。失去视觉的人们也可以理解他们的朋友所分享的图片中的内容,因为无论图片是否配有说明文字,系统都可以告诉他们。

最近,我们演示了为盲人用户开发的技术:评估照片,描述其内容。目前,视觉障碍的用户在脸书新信息推送中遇到图片时,只能听到照片发送者的名字,以及“图片”这个词。而我们的目的是提供更加丰富的描述,比如“图片包含海滩,树,和三个微笑的人”。

更进一步,放大我们正在开发的技术,我们的目标是更加沉浸式的虚拟体验:当用户用手指扫过图片时,系统为他们描述所触摸的内容,这样用户好像真的“看”到了照片一样。

继续前行,我们会继续改善检测和分割算法。你可以设想这种图像检测、分割、确认能力应用在商业、健康等其他增强现实领域的那一天。

128

另外,我们的下一个挑战是将这些技术应用在视频中。在视频中,物体是移动的,交互的,随时间变化的。对于观看视频,对其中的物体进行实时理解和分类,我们已经在计算机视觉方面取得了一些进展。实时分类能帮助发现相关和重要的直播视频,而应用更好的技术来检测场景、物体、时间和空间上的动作会使得实时解说在某一天成为现实。对于持续推进这些技术,为每个人提供更好的Facebook体验,我们非常兴奋。

webwxgetmsgimg