天宫技能【视频】全球AI芯片争夺战，谷歌率TPU杀入战场，英伟达英特尔紧追不放-多彩簿子

作者：admin , 分类：全部文章 , 浏览：275

【视频】全球AI芯片争夺战遇人不熟，谷歌率TPU杀入战场，英伟达英特尔紧追不放-多彩簿子

人工智能系统的加速正在从根本上重塑着每年创造了3350亿美元的半导体行业。计算机开始认识一切，从花草到人脸，从文本到声音，以及学会开车。统治了计算机行业近半个世纪的摩尔定律正在受到挑战，计算性能的提升不再依赖于晶体管数量的增长，还有专用负载芯片产业的蓬勃。英特尔面临着英伟达、微软、苹果、谷歌等巨头以及CEVA、Eyeriss、寒武纪、华为等 AI 芯片新玩家不同方向的围攻。
人工智能技术尤其是深度学习的兴起葱花煎蛋，让各大公司都注意到必须要填补的计算力鸿沟。越来越多的研究人员开始重新思考计算的本质，从人类大脑处理信息的方式获得灵感，打造新的硬件体系结构。
经过多年的发展停滞，计算机再一次开始演化，而其结果必将更加深远——加速人工智能，让机器也能像人类一样感知周围的世界，能听会说郗慧林，能看会写，甚至更多。这是很多科学家多年的梦想，如今正以现实的模样向我们走来。
就在上周，《纽约时报》发表长文，以《计算机正从人类大脑获取设计线索》为题，展现了当前AI芯片业界，重点写了谷歌、微软等并非传统芯片公司在专用芯片上的动向。这种朝向专用芯片和新计算架构的发展趋势可能带来人工智能的“寒武纪大爆炸”。
斯坦福大学前任校长、计算机体系结构宗师John Hennessy以谷歌母公司Alpahbet现任董事会成员的身份接受了NYT记者的采访。Hennessy表示：“现有方法已经不够用了，大家在尝试重新设计系统架构。”
更新更复杂的系统，更小更专用的芯片，更低的能耗，更快的速度……将计算量扩展到大量微小的低功耗芯片上，像人脑一样运行，新的技术正在不断推进计算机半导体的边疆，正向Hennessy说的那样：“这将是一个巨大的变化”。谷歌：意外黑马，率TPU杀入战场
谷歌浩瀚的数据中心无疑是业界的风向标，这里发生的变化也预示着业内其他行业的发展趋势。在谷歌众多的服务器中，仍然有一个中央处理器，但同时，也有大量的定制芯片一起参与工作，驱动语音识别、图像分类等人工智能应用。
2011年的时候，谷歌做了一笔计算，如果每位用户每天使用3分钟他们提供的基于深度学习语音识别模型的语音搜索服务，他们就必须把现有的数据中心扩大两倍。
“我们需要另外一个谷歌。”Jeff Dean告诉谷歌基础设施副总裁Urs H?lzle。
他们需要更强大、更高效的处理芯片。GPU是理想的深度学习芯片，谷歌也使用英伟达的GPU，但这还不够13号怪异岛，他们想要更快的速度，更高效的芯片。单个GPU耗能不会很大，但如果谷歌数百万台服务器日夜不停运行，那么耗能会变成一个严重问题。

Jeff Dean是最早意识到谷歌需要自己的专用人工智能芯片的人之一。右边是谷歌自己研发的专用芯片TPU。来源：Ryan Young/NYT
谷歌在去年I/O大会上推出了自己的AI芯片——张量处理器TPU（第一代）。谷歌表示，尽管在一些应用上利用率很低，初代TPU平均比那时候的GPU或CPU快15~30倍，性能功耗比（TOPS/Watt）高出约30~80倍。
今年5月I/O大会上，谷歌发布了第二代TPU，峰值性能达到180TFLOPS/s99伞兵刀。第一代TPU只加速推理，但第二代TPU新增了训练的功能。不仅如此，谷歌的用户还能通过专门的网络，在云端利用TPU构建机器学习的超级计算机。
在第二代TPU里，每个TPU都包含了一个定制的高速网络，构成了一个谷歌称之为“TPU舱室”（TPU POD）的机器学习超级计算机。一个TPU舱室包含64个第二代TPU，最高可提供多达11.5千万亿次浮点运算，内存400万兆字节，4倍快于当时市面上最好的32台GPU。

Cloud TPU 带来的最大好处，则是谷歌的开源机器学习框架 TensorFlow。TensorFlow 现在已经是 Github 最受欢迎的深度学习开源项目，Cloud TPU 出现以后，开发人员和研究者使用高级 API 编程这些 TPU，这样就可以更轻松地在CPU、GPU 或 Cloud TPU 上训练机器学习模型，而且只需很少的代码更改。
英伟达：GPU的计算时代
自上市以来的17年中，英伟达的股价一直在35美元间徘徊，其推出的Tegra系列处理器在智能手机领域也不温不火。但从2015年开始，英伟达股价飙涨，一扫移动处理器市场的阴霾，历史性的突破100美元（对应市值600亿美元左右），这得益于其在汽车和深度学习领域的深刻布局隔山取火。
在自动驾驶领域，英伟达在Tegra处理器的基础上相继推出了DRIVE PX和DRIVE PX2自动驾驶汽车计算平台，并开始与特斯拉、奥迪、博世等车企合作开发无人驾驶技术，在2017年CES上推出了搭载DRVIE PX2的英伟达BB8无人驾驶原型车。
图像处理是GPU诞生的舞台，英伟达的 GPU 是支持深度学习算法加速的处理器中当仁不让的佼佼者。英伟达在2008年推出了基于ARM和Geforce的移动处理器Tegra，随后由于这一处理器系列在图像处理方面的巨大优势，迅速占领了对图像处理要求较高的游戏机和平板市场亡命琴师，并在随后几年中不断更新升级。
卡耐基梅隆大学的lan Lane教授曾表示："借助 GPU，预先录制的语音或多媒体内容的转录速度能够大幅提升。与CPU软件相比，我们执行识别任务的速度超级高可提升33倍。"在机器学习领域，使用GPU提供的强大并行运算能力去处理海量的学习数据，再用CPU完成其他的逻辑。Tegra系列处理器的优质特性让英伟达成为众多机器学习系统的首选。微软：教会计算机视听
2010年，微软刚刚开始使用机器学习算法来改进Bing，通过分析人们使用该服务的方式来改善搜索结果。虽然这些算法要比后来重新设计神经网络要求更低，但是仍在芯片环节遇到了困难：构建像在Intel CPU上运行Windows一样的软件，软件无法重新编程芯片，因为它只有连线才能执行某些任务。
圣诞节期间，微软研究院工程师道格·伯格（Doug Burger）与微软的其他芯片研究人员合作，希望从硬件层面尝试加速搜索引擎Bing。Burger和他的团队探索了几个选择，但最终采用了现场可编程门阵列FPGA：一种可以重新编程新工作的芯片，他们将这个项目称之为Project Catapult。
使用FPGA，微软可以改变芯片的工作方式。它可以对芯片进行编程卡伐蒂娜，以便执行特定的机器学习算法。然后，它可以重新编程芯片真正的运行逻辑，在其计算机网络上发送数百万和数百万个数据包。它们基于同一个芯片，但行为方式可以不同。
2015年，微软开始大量安装FPGA芯片。现在，加载到Microsoft数据中心的每个新服务器都包含其中一个可编程芯片。他们帮助用户在搜索Bing时选择结果，帮助Azure，以及云计算服务，跨越其底层机器网络的信息。
在2016年秋天，微软研究人员构建出一个神经网络，帮助机器能够比一般人类更准确地识别口头词，由微软的首位华人“全球技术院士”、首席语音科学家黄学东黄学东领导这个团队。在近期的产业标准Switchboard语音识别基准测试中，微软实现词错率(WER)低至6.3%的这一技术突破，这比IBM达到的6.6%WER下降了0.3%，达到目前语音识别领域错误率最低的水平。
在加利福尼亚帕洛阿尔托上空，他与老朋友黄仁勋一起吃饭庆祝。因为这背后的功臣来自于Nvidia提供的大量专业芯片培训语音识别服务，而不是普通的英特尔芯片。如果没有做出这样的改变，他们的突破是不可能的。
黄学东曾说道：“如果我们没有芯片的武器，这一进展至少要延迟五年。”

微软的黄学东（左）和Doug Burger是在公司内容开发专用芯片的领军力量。来源：Ian C. Bates/NYT
在计算能力方面，Ignite 2016 大会上，Burger与微软CEO Satya Nadella 演示了FPGA加速机器翻译示例。他们的总计算能力达到103万Tops，相当于10万块顶级GPU计算卡；功耗大约30W，仅增加了整个服务器功耗的十分之一。
今年8月，微软将FPGA与云计算服务结合，推出 Project Brainwave低延迟深度学习云平台。该平台以英特尔(Intel)提供的Stratix 10现场可编程门阵列(FPGA)为基础韵母歌，除了内建深度神经网络(DNN)加速引擎外，在软件堆栈方面，还可支持Google的Tensorflow、微软自家的Cognitive Toolkit等深度学习框架。
根据微软官方测评显示，当使用英特尔的 Stratix 10 FPGA，Brainwave不需要任何batching就能在大型 GRU （gated recurrent unit）达到 39.5 Teraflops的性能。该系统为实时AI而设计，以极低的延迟在接收数据后立刻处理请求。
该系统为实时 AI 而设计，它能以极低的延迟在接收数据后立刻处理请求三秒哥。乔丽娅由于云基础设施需要处理实时数据流，不管是搜索请求、视频、传感器数据流还是用户交互，实时 AI 正在变得越来越重要。繁盛的AI芯片市场，百家争鸣
通用芯片并不能很好地适应深度学习算法的要求渔游蛇，效率低，功耗大，成本高。各种神经网络算法需要专用芯片来保证其运行效率。人工智能的浪潮，催生了 AI 专用芯片的大爆发。
无论是云端的运算还是移动端的运算，都需要专门针对 AI 算法设计的芯片，但这二者对 AI 专用芯片的要求不同。云端要求 AI 芯片适应多种神经网络架构，同时能进行高精度浮点运算，峰值性能至少要达到Tflops（每秒执行10^12次浮点数运算）级别，对功耗没有严苛要求；支持阵列式结构以进一步提高性能。
移动端 AI 芯片对设计的要求截然不同。一个根本的要求是控制功耗，这就需要使用一些办法（如网络压缩）来提升计算能效，同时尽可能少地降低计算性能和计算精度的损失。
各个厂商纷纷在这两个方向上发力 AI 芯片的研发，当然云端和移动端也无法截然分开。比如寒武纪，此前研发的寒武纪深度学习处理器是面向大规模神经网络和多种机器学习算法的，而2016 年推出的寒武纪1A处理器（Cambricon-1A）则是面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备的。
在云端，除了上文的英伟达，英特尔在收购 Altera 之后推出了基于FPGA的专用深度学习加速卡，更收购了Nervana，瞄准为深度学习专门定做和优化的 ASIC 芯片；收购了Movidius，其高性能视觉处理芯片将补足英特尔在移动端 AI 芯片的缺失。另外还有IBM的类脑芯片 TrueNorth。当然还有本文开头讲到的谷歌TPU。日前，百度又正式推出了 XPU，它是基于百度FPGA 的新一代 AI 处理架构，拥有GPU的通用性和FPGA的高效率和低能耗，对百度的深度学习平台PaddlePaddle做了高度的优化和加速。
在移动端，谷歌、苹果和三星等都在用专门的 AI 芯片构建手机。微软正在为增强现实耳机专门设计这样的芯片。同时从科技巨头谷歌到传统车厂丰田，所有人都在进行自动驾驶汽车的研发，正需要能够在移动端良好运行的 AI 芯片。
比如擅长底层架构改进的苹果，其最新发布的 Apple X采用了定制的芯片来处理人工智能工作负载。这是一个双核的“A11 生物神经网络引擎”（A11 bionic neural engine）芯片，每秒运算次数最高可达6000亿次。该芯片赋能的最重要的事情就是使 Face ID 身份认证功能能够快速识别人脸，从而解锁 iPhone X 或进行购物。
芯片走向定制化，以满足AI软件的需求，在行业中已经变成一股新的大趋势。谷歌已经设计了两代芯片来处理数据中心的AI计算工作负载。微软也为未来版本的 HoloLens 混合现实头盔开发了一款AI芯片。在iPhone上安装新的专用芯片意味着主芯片的工作量将会减少，从而提高电池寿命。否则，例如，通过手机摄像头进行物体识别同时进行视频录制时，可能会迅速地将电池消耗完。此外，在不久的将来， iPhone以外的更多移动设备都可能包含针对AI的处理器。
又如华为。在德国IFA 2017举办期间，华为正式发布全球首款人工智能移动计算平台麒麟970。华为方面表示，这一带有强大AI计算力的手机端移动计算平台，是业界首颗带有独立NPU（Neural Network Processing Unit）专用硬件处理单元的手机芯片天宫技能。创新性集成NPU专用硬件处理单元苗钟真，创新设计了HiAI移动计算架构，其AI性能密度大幅优于CPU和GPU。相较于四个Cortex-A73核心糖醋荷包蛋，处理相同AI任务，新的异构计算架构拥有约 50 倍能效和 25 倍性能优势，图像识别速度可达到约2000张/分钟。麒麟970高性能8核CPU，对比上一代能效提高20%。率先商用 Mali G72 12-Core GPU，与上一代相比，图形处理性能提升20%，能效提升50%，可以更长时间支持3D大型游戏的流畅运行。
此外，中国也有几家公司在进行 AI 芯片的研发。此前腾讯发布的 AI 产业报告指出，AI 芯片作为产业核心，也是技术要求和附加值最高的环节，产业价值和战略地位远远大于应用层创新。而在这一点上，中国和美国的差距还很大。报告显示，从基础层的芯片企业数量来看，中国拥有14家，美国33家马明仁膏药，中国仅为美国的42%。
国内在 AI 芯片研发表现突出的企业，除上文介绍的寒武纪外，还有推出具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片“星光智能一号”的中星微电子，致力于软硬件一体化解决方案的地平线机器人，以及打造了“深度学习处理单元”（Deep Processing Unit，DPU）的深鉴科技。深鉴科技的目标是以 ASIC 级别的功耗，达到优于 GPU 的性能，目前第一批产品基于FPGA平台。
美国国防部研究部门 Darpa 的项目经理吉尔·普拉特（Gill Pratt）表示，这种向专业芯片和新的计算机架构转型的趋势可能导致人工智能芯片的“寒武纪爆炸”。正如他所看到的那样，将计算量扩展到大量微小的低功耗芯片，以使机器可以像人类的大脑一样运行，这样就有效地利用了能量。
每台设备都将拥有自己的大脑
所有这些向专用芯片的迁移都可能削弱芯片设计与制造巨头英特尔的力量，并从根本上改变每年规模3350亿美元的半导体产业市场。

今年7月，英特尔AIPG首席技术官Amir Khosrowshahi接受新智元专访午夜的太阳，表示接下来英特尔将有一系列针对AI的芯片产品推出。Amir表示，以谷歌TPU为代表的AI专用芯片“优势只是暂时的”，英特尔正在开发比TPU第二代更好的芯片。同时，Amir强调，芯片或者说处理器只是构建成功机器学习解决方案很小的一方面，从生产到制造到销售一整套流程，要配合才能成功。
不论如何，当前芯片界正在掀起一股革命，虽然目前这种转变主要还发生在支撑互联网的庞大的数据中心，但其影响在更广泛的行业内渗透只是时间上的问题。
未来，新的移动芯片可以帮助设备自己在本地处理更多和更复杂的任务，从语音识别语，到人脸识别再到家庭机器人、无人驾驶汽车识别环境，响应命令。
每台设备或许都将拥有自己的大脑。

文章归档

周盛俊杰

天宫技能【视频】全球AI芯片争夺战，谷歌率TPU杀入战场，英伟达英特尔紧追不放-多彩簿子