人工智能前景可期 六大领域亟需密切关注
2020年在热浪中落下帷幕,无可否认的是,人工智能已逐步渗透到我们的工作和生活中。服务机器人实际上是多种技术的融合和实现,包括语音交互、导航定位、运动控制、后台调度管理、多传感技术、通信等多领域技术。要让产品成功商用,这些技术缺一不可。
定位导航技术:
得雷达SLAM者,走得更远
行业领先的服务机器人企业,八成都采用了SLAM技术。简单来说,SLAM技术是指机器人在未知环境中,完成定位、建图、路径规划的整套流程。
随着谷歌无人驾驶车的使用,基于激光雷达技术的雷达SLAM算法也变成了科研界的热门话题。据介绍,雷达SLAM虽然成本较高,但却是目前最稳定、最可靠、高性能的SLAM方式。刚刚完成A轮融资的深圳优地科技有限公司,旗下优地机器人采用的正是雷达SLAM。这种技术定位精度控制在±10mm内,能够确保机器人在完全未知的环境中创造地图,同时根据地图进行定位、导航、自主规划路线。也就是说你下达任务后以后它就能自主规划路线、完成任务后回到迎宾地点,无需人工操作,与谷歌无人驾驶技术有异曲同工之妙。
SLAM技术目前已广泛应用于AR、机器人、无人驾驶等新兴领域,其中雷达SLAM因良好的指向性与高度聚焦性,成为行业主流定位导航方式。
运动控制技术:
轮动机器人更符合市场需求
有趣好玩的双足机器人你一定都见过,然而事实是这类机器人稳定性差,移动速度慢,并且一推就倒。而轮式、履带式的服务机器人则拥有更好的平衡性,在运动过程中更稳定。
“我们的机器人采用自主研发的轮式底盘,轮式底盘具有更强的稳定性、可靠性和耐用性。”优地科技负责人接受采访时表示,“比如有的机器人只能在平地行走,而我们机器人可以爬坡,只要坡度不超过15度都可以,整机可以承重40kg。”
目前双足机器人主要有电机和液压两种运动控制方式,前者结构相对简单,但负载能力有限;后者虽然有较大的负载能力,但结构复杂。而轮式、履带式机器人的运动控制方式主要由纵向控制和横向控制两部分组成,前者调节移动速度;后者调节移动轨迹。在运动、避障过程中,轮式、履带式机器人能够根据速度的不同采取不同的控制策略,以保持整体的稳定性。从目前的技术发展和实用性来看,轮式、履带式的机器人显然更符合市场需求。
多传感器融合技术:
最终体现产品差异化功能
传感器如同机器人的“五官”,机器人通过传感器获取外界信息,以满足探测和数据采集的需要。系统通过综合、互补、修正、分析所得信息,从而完成决策,快速作出反应。未来的机器人想要做得更像人,多传感器融合技术至关重要。比如日本Pepper机器人就配有1个3D传感器、5个触摸传感器、2个陀螺仪、2个声波定位仪、3个缓冲传感器、6个激光传感器。通过这项技术,Pepper能识别人的表情、语气、周围环境,并根据人的情绪做出更丰富的、更人性化的反应。
目前我国主流服务机器人主要配有红外传感器、超声波传感器、触觉传感器、视觉传感器等。实际上,如果服务机器人想要完成更多、更复杂的任务,还需配备更多的传感器。多传感器融合技术的成熟与否,将直接体现在服务机器人的差异化功能上。
深度学习算法:
机器学习里的重要突破
“机器学习里面最重要的一个突破,就是深度学习。”李开复最近在公开演讲中表示,“深度学习,简单的理解,就是给非常非常大的神经元,用特别大量的数据充进去训练。它就可以在某个领域,在识别方面、分类方面,或者预测方面,远远超过任何过去的算法。”
所谓深度学习算法,就是机器人模仿人脑构建神经网络,并通过信息收集、建立模型的方式来解释数据,以达到机器学习的功能。机器人通过解析、学习数据,更易理解人类的语言、行动,并做出更精准的回应。谷歌的阿尔法狗在“出道前”就是不断地和自己下棋,研习棋谱,让系统进行自我博弈,并迅速完成自我进化。
传统机器人无法理解语意、环境,而深度学习算法的出现则改变了这种现状。获取的复杂数据模型越多,机器人就越“聪明”,它不再是机械性地完成任务,而是有“思考”、有“判断”地模仿人类做出相应的举动。不过,受技术水平、大数据获取难题以及云运算效率等因素限制,目前深度学习算法还存在一定的瓶颈,想要广泛应用于服务机器人中,恐怕还需要一段时间。
智能语音、通信技术和后台管理技术等都将是企业能否抢占市场份额的关键技术。因文章篇幅限制,这里不再展开讨论。
据报道,2016年12月中国机器人产业联盟将陆续发布3项联盟标准,17项机器人产业联盟标准。2017年,垂直应用场景与产业标准两大现实因素也是服务机器人企业需要考量的重点。垂直应用场景的选择决定了机器人深耕的领域、方向,而能否符合标准规范则决定了机器人能否进入市场销售。
3·9:AlphaGo下围棋战胜围棋宗师李世石;
3·23:微软聊天机器人“Tay”学会种族歧视言论;
5·7:“自动驾驶”特斯拉自动驾驶致使车祸;
9·28:谷歌、亚马逊、Facebook、IBM 及微软五大科技巨头组建超级AI联盟;
10·12:美国白宫发布人工智能白皮书;
10·17:微软AI的语音识别能力首次超过人类;
11·25:人工智能改善癌症诊断法;
12·5:亚马逊开展新零售业务Amazon Go;
12·19:扎克伯格开发AI助手Jarvis;
12月:华人AI研究贡献占据全球份额近一半。
2016年围绕着人工智能各行各业开始智能化探索,创投圈攻城略地,中美等众多国家也积极布局人工智能抢占战略制高点。在市场规模方面,《2016中国人工智能产业发展报告》中多家分析机构的数字评估认为,2016年年底,世界人工智能市场规模将突破100亿美元,其中,中国市场规模将达到15亿美元左右。未来,人工智能市场有望进一步扩大,到2020年,全球人工智能市场将发展到200亿美元左右的规模。人工智能,未来已来?
人工智能尚处初级阶段
学术界将人工智能界定为“研究与设计智能体”,而且把智能体定义为“能够感知环境,并采取行动使成功机会最大化的系统”,一般分为感知智能、认知智能和创造性智能。对其研究最早出现在 20 世纪 50 年代,在发展过程中经历了起起落落,进入21世纪以后,随着深度学习、大数据、云计算等相关技术的成熟,近年来取得众多突破性的发展。
但纵观社会发展的历程来看,目前人工智能的发展仍处于初级阶段,称之为“弱人工智能”,其中感知智能以深度卷积神经网络为代表的感知智能依赖于大数据,在视觉物体识别、语音识别和自然语言理解等方面取得了媲美人类水平的成功;具有近似人类能力的认知智能的研究,仍在逐步探索中;而创造性智能则是在更高层次上的人工智能,要求人工智能具有类似于人类的顿悟、灵感等超强能力,这方面的研究甚至还没有起步。
从产业链上看,人工智能产业链包括基础技术支撑、人工智能技术及人工智能应用三个层次。其中基础技术支撑由数据中心及运算平台构成;人工智能技术是基于基础层提供的存储资源和大数据,通过机器学习建模,开发面向不同领域的应用技术;人工智能应用主要为人工智能与传统产业相结合实现不同场景的应用,如机器人、无人驾驶汽车、智能家居、智能医疗等领域。目前人工智能的发展还是国内外科技巨头为主推动力,国外以Google、Facebook、IBM、Microsoft、Amazon、Intel等为主,国内以BAT及语音巨头科大讯飞为主。
人工智能的重要意义是对每一个行业和领域效率带来指数级提升推动作用,由于技术的复杂性,发展不会一蹴而就,必然经历一个由点到面,由专用领域到通用领域的历程,通用领域的人工智能实现还比较遥远。截至2016年11月,据数据统计显示,全球1485家人工智能公司可划分为深度学习、机器学习、机器学习、自然语言处理、计算机视觉、图像识别、手势控制、虚拟私人助手、无人驾驶、智能机器人、语音翻译等13个细分领域。近五年内,专用领域的定向智能化将是人工智能主要的应用发展方向。或许在更远的将来,如果人脑芯片等硬件架构能有所突破,运算能力有极大提高,则专用智能将有可能逐步进化成为跨场景、跨上下游应用的通用智能。
2017 年人工智能将掀起怎样的风暴?
有机构预测2022年人工智能的投资将同比增长300%以上。人工智能在技术上将更迅猛发展,智能语音、智能图像、自然语言处理、深度学习等技术越来越成熟,像空气和水一样会逐步渗透到日常生活。行业专家关于2021年人工智能的发展方向有如下几点:
1.机器学习应用的扩张:机器学习正被应用在更复杂的任务以及更多领域中,而且被更多的人作为挖掘数据的方式。
2.无监督学习会取得更多的进展(也存在很大的挑战,在这方面离人类的能力还差得很远)。
3.计算机在理解和生成自然语言:预计最先会在聊天机器人和其他对话系统上落地。
4.深度学习和其他的机器学习以及人工智能技术的混用,是成熟技术的典型标志。将深度学习应用到医疗领域中包括对医疗图像、临床数据、基因组数据等各种类型数据上的研究和成果将会大大增加。
5.自动驾驶汽车,计算机视觉也会持续取得进展。
6.聊天机器人和自动驾驶汽车可能会取得较大进展。
7.预计更多的人类基准会被打破,特别是那些基于视觉、适合卷积神经网络的挑战。而非视觉特征创建和时间感知方法将变得更频繁、更富有成果。
总的来说,2021年人工智能还将深远影响着全球各个科技领域的创新,持续改变着消费者、企业以及机器的交互方式,同时刺激着科技市场成长和革新。有许多关于人工智能公认定义的争论。有些人认为人工智能就是“认知计算”或是“机器智能”,而另一些人则把它与“机器学习”的概念混淆了。然而,人工智能并不是特指某种技术,它实际上是一个由多门学科组成的广阔领域,包括机器人学和机器学习等。人工智能的终极目标是让机器替代人类去完成需要认知能力的任务。为了实现这一目标,机器必须自动学习掌握能力,而不仅仅是执行程序员编写的命令。
人工智能前景可期 六大领域亟需密切关注
人工智能在过去的十年里取得了令人叹为观止的进步,例如自动驾驶汽车、语音识别和语音合成。在此背景之下,人工智能这一话题越来越多地出现在同事和家人的闲谈之间,人工智能技术已经渗透到他们生活的角角落落。与此同时,流行媒体几乎每天也在报道人工智能和技术巨头们,介绍他们在人工智能领域的长期战略。一些投资者和企业家渴望了解如何从这个新领域挖掘价值,大多数人还是绞尽脑汁思考究竟人工智能会改变什么。此外,各国政府也正在努力应对自动化给社会带来的影响(如奥巴马总统的离职演讲)。
其中,人工智能的六大领域在未来可能对数字产品和数字服务产生重要的影响。作者一一列举了这六个方向,解释了它们的重要性,目前的应用场景,并列举出正在使用的公司和研究机构。
强化学习
强化学习是一种通过实验和错误来学习的方法,它受人类学习新技能的过程启发。在典型的强化学习案例中,代理者通过观察当前所处的状态,进而采取行动使得长期奖励的结果最大化。每执行一次动作,代理者都会收到来自环境的反馈信息,因此它能判断这次动作带来的效果是积极的还是消极的。在这个过程中,代理者需要平衡根据经验寻找最佳策略和探索新策略两方面,以期实现最终的目标。
Google的DeepMind团队在Atari游戏和围棋对抗中都运用了强化学习的技术。在真实场景中,强化学习有被用来提高Google数据中心的能源利用率。强化学习技术为这套冷却系统节省了约40%的能耗。强化学习有一个非常重要的优势,它的代理者能以低廉的代价模拟生成大量的训练数据。相比有监督的深度学习任务,这个优势非常明显,节省了一大笔人工标注数据的费用。
应用:包括城市道路的自动驾驶;三维环境的导航;多个代理者在同样的环境中交互和学习等
主要研究人员: Pieter Abbeel (OpenAI), David Silver, Nando de Freitas, Raia Hadsell (Google DeepMind), Carl Rasmussen (Cambridge), Rich Sutton (Alberta), John Shawe-Taylor (UCL) 等
技术公司代表: Google DeepMind, Prowler.io, Osaro, MicroPSI, Maluuba/Microsoft, NVIDIA, Mobileye等
生成模型
不同于用来完成分类和回归任务的判别模型,生成模型从训练样本中学到一个概率分布。通过从高维的分布中采样,生成模型输出与训练样本类似的新样本。这也意味着,若生成模型的训练数据是脸部的图像集,那么训练后得到的模型也能输出类似于脸的合成图片。细节内容可以参考Ian Goodfellow的文章。他提出的生成对抗模型(GAN)的结构当下在学术界非常的火热,因为它给无监督学习提供了一种新思路。GAN结构用到了两个神经网络:一个是生成器,它负责将随机输入的噪声数据合成为新的内容(比如合成图片),另一个是判别器,负责学习真实的图片并判断生成器生成的内容是否以假乱真。对抗训练可以被认为是一类游戏,生成器必须反复学习用随机噪音数据合成有意义的内容,直到判别器无法区分合成内容的真伪。这套框架正在被扩展应用到许多数据模式和任务中。
应用:仿真时间序列的特征(例如,在强化学习中规划任务);超分辨率图像;从二维图像复原三维结构;小规模标注数据集的泛化;预测视频的下一帧;生成自然语言的对话内容;艺术风格迁移;语音和音乐的合成
技术公司代表: Twitter Cortex, Adobe, Apple, Prisma, Jukedeck, Creative.ai, Gluru, Mapillary, Unbabel
主要研究人员: Ian Goodfellow (OpenAI), Yann LeCun 和 Soumith Chintala (Facebook 人工智能研究院), Shakir Mohamed 和 Aäron van den Oord (Google DeepMind)等等
记忆网络
为了让人工智能系统像人类一样能够适应各式各样的环境,它们必须持续不断地掌握新技能,并且记住如何在未来的场景中应用这些技能。传统的神经网络很难掌握一系列的学习任务。这项缺点被科学家们称作是灾难性遗忘。其中的难点在于当一个神经网络针对A任务完成训练之后,若是再训练它解决B任务,则网络模型的权重值不再适用于任务A。
目前,有一些网络结构能够让模型具备不同程度的记忆能力。其中包括长短期记忆网络(一种递归神经网络)可以处理和预测时间序列;DeepMind团队的微神经计算机,它结合了神经网络和记忆系统,以便于从复杂的数据结构中学习;渐进式神经网络,它学习各个独立模型之间的侧向关联,从这些已有的网络模型中提取有用的特征,用来完成新的任务。
应用:训练能够适应新环境的代理者;机器人手臂控制任务;自动驾驶车辆;时间序列预测(如金融市场、视频预测);理解自然语言和预测下文。
技术公司代表: Google DeepMind, NNaisense, SwiftKey/Microsoft Research.
主要研究人员: Alex Graves, Raia Hadsell, Koray Kavukcuoglu (Google DeepMind), Jürgen Schmidhuber (IDSAI), Geoffrey Hinton (Google Brain/Toronto)
微数据学习微模型
一直以来深度学习模型都是需要堆积大量的训练数据才能达到最佳的效果。比如,某只参加ImageNet挑战赛的团队使用了120万张分布于1000个类别的人工标注图像训练模型。离开大规模的训练数据,深度学习模型就不会收敛到最优值,也无法在语音识别、机器翻译等复杂的任务上取得好效果。数据量需求的增长往往发生在用单个神经网络模型处理端到端的情况下,比如输入原始的语音片段,要求输出转换后的文字内容。这个过程与多个网络协同工作各处理一步中间结果不同(比如,原始语音输入→音素→词→文本输出)。如果我们想用人工智能系统解决训练数据稀缺的任务时,希望模型训练用到的样本越少越好。当训练数据集较小时,过拟合、异常值干扰、训练集和测试集分布不一致等问题都会接踵而至。另一种方法是将在其它任务上训练好的模型迁移到新的任务中,这种方法被称为是迁移学习。
一个相关的问题是用更少的模型参数建立更小的深学习架构,而模型的效果却保持最佳。这种技术的优势在于更高效的分布式训练过程,因为训练过程中需要传输的参数减少了,并且能够方便地将模型部署在内存大小受限制的嵌入式硬件上。
应用:训练浅层模型来模拟在大规模的已标注训练数据集上训练得到的深度网络模型;构建效果相当但参数更少的模型结构(如SqueezeNet);机器翻译
技术公司代表: Geometric Intelligence/Uber, DeepScale.ai, Microsoft Research, Curious AI Company, Google, Bloomsbury AI
主要研究人员: Zoubin Ghahramani (Cambridge), Yoshua Bengio (Montreal), Josh Tenenbaum (MIT), Brendan Lake (NYU), Oriol Vinyals (Google DeepMind), Sebastian Riedel (UCL)
学习/推理硬件
促进人工智能发展的催化剂之一就是图形处理器(GPU)的升级,不同于CPU的顺序执行模式,GPU支持大规模的并行架构,可以同时处理多个任务。鉴于神经网络必须用大规模(且高维度)数据集训练,GPU的效率远高于CPU。这就是为什么自从2012年第一个GPU训练的神经网络模型——AlexNet公布之后,GPU已经成为名副其实的淘金铁锹。NVIDIA在2017年继续领跑行业,领先于Intel、Qualcomm、AMD和后起之秀Google。
然而,GPU并非专为模型训练或预测而设计,它原本是用于视频游戏的图像渲染。GPU具有高精度计算的能力,却遭遇内存带宽和数据吞吐量的问题。这为Google之类的大公司和许多小型创业公司开辟了新领域,它们为高维机器学习任务设计和制造处理芯片。芯片设计的改进点包括更大的内存带宽,图计算代替了向量计算(GPU)和矢量计算(CPU),更高的计算密度,更低的能源消耗。这些改进令人感到兴奋,因为最终又反哺到使用者的身上:更快和更有效的模型训练→更好的用户体验→用户更多的使用产品→收集更大的数据集→通过优化模型提高产品的性能。因此,那些训练和部署模型更快的系统占据显著的优势。
应用:模型的快速训练;低能耗预测运算;持续性监听物联网设备;云服务架构;自动驾驶车辆;机器人
技术公司代表: Graphcore, Cerebras, Isocline Engineering, Google (TPU), NVIDIA (DGX-1), Nervana Systems (Intel), Movidius (Intel), Scortex
仿真环境
正如之前提到,为人工智能系统准备训练数据很具有挑战性。而且,若要将人工智能系统应用到实际生活中,它必须具有适用性。因此,开发数字环境来模拟真实的物理世界和行为将为我们提供测试人工智能系统适应性的机会。这些环境给人工智能系统呈现原始像素,然后根据设定的目标而采取某些行动。在这些模拟环境中的训练可以帮助我们了解人工智能系统的学习原理,如何改进系统,也为我们提供了可以应用于真实环境的模型。
应用:模拟驾驶;工业设计;游戏开发;智慧城市
技术公司代表: Improbable, Unity 3D, Microsoft (Minecraft), Google DeepMind/Blizzard, OpenAI, Comma.ai, Unreal Engine, Amazon Lumberyard