现场 | 中国AI芯片独角兽寒武纪首场发布会,目标3年内复盖10亿终端!这家初创公司正成为中国AI产业布局关键

DeepTech深科技2020-11-20 08:40:26

年度订阅用户可加入科技英语学习社区,每周科技英语直播讲堂,详情查看“阅读原文”


今天下午,国内知名的人工智能独角兽公司寒武纪科技在北京举办了成立以来的首场发布会“智能时代的引领者”,发布旗下新一代智能处理器 IP 产品,并阐述公司未来芯片产品研发路线图,包括华为海思、阿里巴巴集团、联想集团、科大讯飞、中科曙光、ARM、旷视科技、地平线等重磅合作伙伴都参加了发布会。



“寒武纪公司是中科院计算所在处理器与人工智能交叉领域超前布局的结晶。”出席发布会的中科院计算所所长孙凝晖讲到。发布会上,寒武纪公司创始人兼 CEO 陈天石发表了题为《迈向人工智能的寒武纪》的主旨演讲,回顾了寒武纪创立前后的历史,同时披露了寒武纪下一代 AI 芯片以及软件平台的细节和部分相关数据。


图丨寒武纪公司创始人兼 CEO 陈天石


陈天石在发布会上也分别针对终端应用与面向云端的智能解决方案,在终端部分,他展示了三款全新的智能处理器 IP:首先有面向低功耗场景视觉应用的寒武纪 1H8、拥有更广泛通用性和更高性能的寒武纪 1H16,以及面向智能驾驶领域的寒武纪 1M。

 

图丨拥有更广泛通用性和更高性能的寒武纪 1H16


图丨面向低功耗场景视觉应用的寒武纪 1H8


图丨面向智能驾驶领域的寒武纪 1M


而在云端,也发表了高性能机器学习处理器芯片“寒武纪 MLU100”以及“寒武纪 MLU200”。两款芯片主要针对服务器端的智能处理需求,分别针对推理与训练两个用途。有别于“神经网络处理器”(NPU)的常见称呼,全新的服务器芯片产品则是以“机器学习处理器”(MLU)作为命名。未来寒武纪产品也将全面支持更多样化的机器学习应用,而不是仅止于常见的深度学习。


图丨高性能机器学习处理器芯片“寒武纪 MLU100”以及“寒武纪 MLU200”


寒武纪在发布会中也发表了针对终端与云端的处理器 IP,分别针对训练与推理等不同应用场景优化,同时也为业界设计了一套针对开发者打造的人工智能软件平台“Cambricon NeuWare”。这套平台包含了开发、调试、调优三大部分,打造端云一体的优质开发环境,该开发平台构建于寒武纪发明的人工智能专用指令及的基础上,借由该平台,开发者可以非常快速的进行跨平台应用迁移,并且同时为不同性质的云端和终端平台的应用开发奠定坚实基础。


图丨人工智能软件平台“Cambricon NeuWare”


陈天石还描述了寒武纪智能芯片的未来路线图,寒武纪将力争在 3 后占有中国高性能智能芯片市场 30% 的份额,并使全世界 10 亿台以上的智能终端设备集成有寒武纪终端智能处理器,如果这两个目标实现,寒武纪将初步支撑起中国主导的国际智能产业生态。

 

陈天石表示,未来人工智能方法将在视觉、语音自然语言、数据分析、经济金融等各类应用方面大显身手,这就要求未来超级计算机数据中心、智能手机、嵌入式设备等要进一步智能化,而寒武纪机器学习处理器有望成为这些设备的标配。



“寒武纪是生物种类大爆发的时代,如今,也是智能技术大爆发时代,衍生不同深度学习多样化的算法,支持不同多样化的技术与应用。”寒武纪 CEO 陈天石如此表示。

 


过去十年人工智能复兴的发动机是“摩尔定律”,芯片规模和效能的放大带动 AI 深度学习的进展,但随着摩尔定律放缓,持续发展的动力不足,就必须另找更有效率的方式。未来 AI 从终端到云端,都需要支持大规模 AI 应用,专门的深度学习处理器必不可缺,因此必须寻找一个专门处理器解决办法,而这也是寒武纪当初发展的初衷。

 

寒武纪在今日发布会中强调可与 ARM 架构互相搭配的 AI 生态,并以基于寒武纪 AI 方案的 Mate 10 在产品性能与应用方面的优势作为展示重点,同时也揭露于十月底在中科曙光峰会中所发表的 Phaneron 人工智能服务器的细节,该服务器采用了基于寒武纪架构的 AI 芯片,主要面向推理业务,在业界多半主打学习的服务器潮流中,可说是特立独行。借此推理服务器,可强化终端 AI 应用的推理反应速度,对于解决云端服务商在线服务质量的问题有极大的帮助。

 

图丨Phaneron——全球首款基于寒武纪芯片的 AI 推理专用服务器


另外,为了提供业界针对 AI 计算硬件一个合理估算性能的方式,寒武纪亦协同业界伙伴开发了针对 AI 计算性能的评测软件,这软件作用就有如安兔兔一般,除了分析 AI 硬件对执行环境的兼容性,亦可合理的评测处理学习或推理时的性能表现,让业界有了可以选择合适方案的参考依据。

 

寒武纪的发展起源

 

寒武纪的前身是中国科学院计算技术研究所下的一个课题组,由陈天石、陈云霁两兄弟领导。

 

图丨陈云霁(右)与陈天石(左)


该课题组早在 2008 年就已经开始研究神经网络算法以及芯片设计。寒武纪第一代方案在 2012 年推出,65nm 工艺下功耗为 0.485W,面积 3.02mm²。平均性能超过主流 CPU 核的 100 倍,但是面积和功耗仅为 1/10,表现相当惊人。

 

不过,当初的寒武纪有个非常直白的命名代号,叫做 DianNao,中文念做“电脑”。当初这命名不是中国人的主意,而是研究团队中的法国人的意见,不用当时已经烂大街的神经网络芯片之类的命名,反其道而行用中文取名,外国人反觉得十分高大上,相当有趣。

 

中科院在 DianNao 的基础上开发出 DaDianNao(第二代,大电脑,功能增强)、PuDianNao(第三代,普电脑,通用型机器学习芯片)、ShiDianNao(视电脑,图像识别处理器)、DianNaoYu(电脑语,神经网络指令集)等延伸规格,针对不同应用或目的特化。也看得出研究团队对命名规则的坚持。

 


寒武纪是基于对整个软硬件优化的平台,拥有成熟的硬件,以及软件接口设计,生态支持能力绝佳,且因为知识产权完全自有,不怕受制于人。

  

寒武纪全新云端与终端AI方案,打入更深层机器学习应用


陈天石也在发布会上也分别针对终端应用与面向云端的智能解决方案,在终端部分,他展示了三款全新的智能处理器IP:首先有面向低功耗场景视觉计算,包含计算器视觉、拍照处理以及安防监控应用的寒武纪1H8、拥有更广泛通用性和更高性能且能耗更低的寒武纪1H16,以及面向智能驾驶领域的寒武纪1M。

 

而在云端,也发表了高性能机器学习处理器芯片“寒武纪MLU100”以及“寒武纪MLU200”。两款芯片主要针对服务器端的智能处理需求,分别针对推理与训练两个用途,目前已经试产芯片被中科曙光采用于建造Phaneron服务器,针对推理应用领域,效能达到120TFlops,相当惊人。

 

有别于“神经网络处理器”(NPU)的常见称呼,全新的服务器芯片产品则是以“机器学习处理器”(MLU)作为命名。未来寒武纪产品也将全面支持更多样化的机器学习应用,而不是仅止于常见的深度学习。


与 ARM、华为通力合作,打造集成先进 AI 计算能力的麒麟 970

 

寒武纪曾在华为发表业界首款手机 AI 处理芯片麒麟 970 时发来贺信,内容就有提到“寒武纪公司(Cambricon Technologies)研制并具有自主知识产权的”寒武纪 1A 深度学习处理器”(Cambricon-1A Processor)是国际上首个商用深度学习处理器产品,在人工智能应用上达到了四核 CPU 25 倍以上的性能和 50 倍以上的能效。


此次,麒麟 970 芯片集成寒武纪 1A 处理器作为其核心人工智能处理单元(即余承东总在发布会中所述 NPU),实现了手机上本地、实时、高效的智能处理。


作为世界首款集成人工智能专用处理器的手机芯片,麒麟 970 将为全世界广大手机用户带来智能时代颠覆性的用户体验,引领全世界智能手机发展的新潮流。”

 


根据 DT 君的分析,华为在麒麟 970 集成 NPU 的目的有二:首先是,效率问题:云端性能强大,学习快速,但学习得出来的模型是通用模型,很难针对小众有定制化的调整,并满足消费者的使用情境。若本地端硬件拥有强大的 AI 学习能力,那么就不需要把数据往云端上丢,直接在本地端处理即可,效率更高。

 

另一个则是隐私安全性。过去的机器学习都要把资料收集后丢往云端,若这些资料和个人生活私领域紧密相关,丢往云端就会产生隐私的争议,若手机本地端就具备了一定的机器学习能力,那么私领域的资料收集与学习就不用再摆到云端上,而是可以放在本地端,就隐私的保全方面,要比云端处理优秀太多。

 


NPU 的性能表现更可说是业界一流。以机器学习常见的图像学习而言,传统高端桌上型处理器只能在一分钟内辨识 97 张图片,但如果通过 NPU,则每分钟可以处理的图片数量可高达 2000 张,换算每秒约 30 张,这已经达到实时处理的效果,不论是 AR 所需要的场景识别,或者是人物、对象识别,几乎都可以做到所见即所得,完全不会感到延迟。

 

当然,过去计算架构要有强大性能,通常都要付出高昂功耗的代价,但 NPU 功耗全负载大约只有 CPU 的一半,如果以计算效率/功耗换算,大概是 0.8 TFLOPS/W,我们以 NVIDIA 推出的 V100 方案作比较,V100 约为 0.4 TFLOPS/W。NPU 的能耗效率甚至大幅超越业界顶级 AI 计算硬件,可见其架构设计的优秀。

 

业界首款以推理为要求,结合快速应用部署的云端服务器 Phaneron

 

在布局终端产品之余,寒武纪也同时与中科曙光合作,利用寒武纪架构打造出针对推理应用优化的 Phaneron 服务器。与一般云端 AI 服务器着重学习不同,Phaneron 针对超低延迟的推理计算服务,面向包括相关产品应用在安防监控、网络、广播媒体娱乐、制造与自动化、金融、医疗、物流交通、零售和新兴领域等应用,提供服务商更低延迟的实时 AI 服务。

 

另外,Phaneron 在硬件神经元虚拟化、寒武纪深度学习指令集、Caffe、MXNet、TensorFlow 等支持非常全面,可以满足更具弹性的各种 AI 计算环境的需求,且性能表现都属业界一流。

 


另一方面,寒武纪也协助中科曙光,打造出快速开发应用的智能平台——"SothisAI”。SothisAI 主打异构融合、简单易用、弹性灵活、可快速部署等,通过 AI 统一异构编程模型、AI 计算力动态实时分配算法、AI 基础性能函数等,快速响应和释放 AI 所需的计算力。战略上,SothisAI 将作为平台服务,支撑其通用 AI 服务,以及行业 AI 服务。

 

注重通用计算能力,支持主要标准

 

寒武纪虽然是中国自有的 AI 计算芯片,但是在支持国际通用的 AI 计算标准方面,却一反过去中国半导体厂商有的自产自用观念,反而非常积极支持,意欲将寒武纪推向世界舞台,让中国企业成为带领世界 AI 产业发展的重要龙头之一。

 

寒武纪目前虽然有实体芯片产品,但 IP 授权也是重头戏之一,如果要把市场做大,进而主导未来产业发展方向,争取国际客户肯定是必要的条件之一。

 


就以目前寒武纪的标准支持范围,不论是在终端或是云端的产品布局,主流的 TensorFlow、Caffe、Mxnet 一应俱全,当然寒武纪也提出自有的深度学习指令集和开发环境,理论上更有利于发掘寒武纪的计算潜力。

 

支持国际计算标准的重要性不言可喻,就如深耕 AI 计算最悠久的 NVIDIA,虽然提出自有的 CUDA 计算环境,但也不敢怠忽对国际标准的支持,毕竟对计算方案而言,开发环境的友善程度与支持广度,决定了未来市场的成长潜力。

 


至于 TensorFlow,大家潜意识里都会认为 Google 针对 TensorFlow 优化提出的 TPU 计算架构肯定会优于第三方芯片,但关键在于 TPU 所采用的脉动数组机架构已属传统架构,被当今许多深度学习 DSP 采用。寒武纪对此也相当熟悉,他们早期与 Olivier Temam 教授、Paolo Ienne 教授共同发表于 ISCA2015 的 ShiDianNao 学术论文已经讨论过这样的架构。

 

陈天石表示,“Google 的 TPU 采用的是历史较旧的脉动数组机架构,多用于一般 DSP,但我们寒武纪则是选择了通用架构。虽然走的路不同,但还是期待能在产业中同台竞技。”

 


另外,DT 君也认为,Google 推出 TPU 并非真正要与产业进行竞争,毕竟 TPU 目前的架构规模还很庞大,很难打入更多元化,比如说类似麒麟 970 这类手机应用芯片当中,而且 Google 也不打算实际售卖基于此架构的方案。反而,这更像是作为示范,向业界展示 TensorFlow 可做到多强大的计算应用,相关的核心结构和算法设计也都借由论文发表出来,NVIDIA 甚至也因此做出了和 TPU 极为类似的 TensorCore 结构。

 

所以说,支持 TensorFlow 有助于寒武纪拓展相关的市场,未来甚至可以成为寒武纪与 NVIDIA 相互抗衡的武器。

 

主要竞争对手为 IP 授权业者以及 NVIDIA、Intel 等AI计算硬件供货商

 

目前,除了售卖实体芯片产品,寒武纪目前的营收方式也包括向 IC 设计业者提供可嵌入的 IP 区块设计。所以说,就市场竞争布局而言,寒武纪其实要比市场上的竞争对手更为全面。

 

为何寒武纪要兼顾 IP 授权与实体芯片销售?这主要有两点原因。

 

首先,IP 的授权可以有效扩大产品的应用广度,借由提供业界可灵活调整规模的 IP 区块让客户使用到其芯片产品中,可以大大的增加寒武纪对 AI 计算生态的掌握度,降低业界导入 AI 计算核心到个别产品中的难度,借此可快速扩大其影响力,毕竟若成为市场主流计算硬件,那么应用端也就必须配合针对该平台优化,这么一来也会有效增加其竞争力。

 


其次,若完全自营实体芯片的设计和销售,就如 NVIDIA 和 Intel 的作法,一来需要很庞大的芯片管销体系,二来产品的设计广度也会受到主要市场的限制,弹性就会有所欠缺,就如 NVIDIA,其 AI 计算环境主要还是针对服务器和自动驾驶方案,还有更广大的应用无法顾及。

 

当然,也会有人认为这么一来授权其 IP 的客户是否有可能直接成为寒武纪的竞争对手?这个可能性不是没有,但是目前寒武纪的 IP 授权还是比较基于小规模布局的嵌入式芯片产品,自有芯片方案则是瞄准高效能深度学习的计算应用,还是有所区隔。


当然,如果客户要打造与寒武纪类似的方案,那么代表该客户可能在设计微调上或者是软件设计上有额外的优化,只要有差异化,那么对寒武纪的市场布局还是有正面帮助。

 

不过,也因为寒武纪包含 IP 授权与芯片销售的的市场策略方向,主要的 IP 供货商以及像 NVIDIA 之类的 AI 芯片业者,就无可避免的成为竞争对手。就 IP 授权方面,目前专攻 AI 计算的 IP 区块设计,主要有 Imagination 和一些 DSP 架构提供业者,ARM 也有针对 AI 计算进行布局,但目前还未发表其完全针对 AI 计算的 IP,目前还是 GPGPU 兼容的方式。

 


但在计算硬件方面,寒武纪将与包括 FPGA 业者、GPU 业者,甚至 CPU 业者,包括 Intel、AMD、NVIDIA、Xilinx 直接竞争。而中国本土的业者,包含地平线以及深鉴科技,则是亦敌亦友的局面,地平线目前和寒武纪有合作项目,虽然地平线也有提出自己的芯片方案,但地平线主要还是着重于算法,因此和寒武纪有着一定的合作空间。深鉴同样是专精于算法的新创公司,目前虽然主要开发平台还是基于 FPGA,但自有芯片很快也会推出,不过深鉴经营核心同样强调算法应用,虽然芯片产品布局多少会有重迭,但是在算法方面同样也有合作的可能。

 

另外,还有一家名为比特大陆的公司,其推出的自有芯片 BM1680 专精于 CNN/RNN 等深度学习计算,由于算法和芯片设计都属自有平台,因此与寒武纪也是属于竞争格局,不过比特大陆并不提供 IP 授权,所以在服务的完整性方面还是略逊寒武纪一筹。凑巧的是,比特大陆的最新发布会就在本月 8 日举办,时间间隔如此之近让人不禁有所联想。

 

寒武纪成为推动中国 AI 产业布局的关键一步

 

根据腾讯研究院公布的数据,中国人工智能企业数量已经达到 592 家,占据全球人工智能企业总数的 23%,然而各种挂名 AI 的方案或产品公司可说此起彼落,但真正有核心技术的目前数量有限,而像寒武纪这种拥有从生态、芯片与软件环境优化,甚至也进行 IP 授权的全方位经营 AI 方案业者,目前可以说是中国独一无二,甚至放诸四海,也找不到可和寒武纪相提并论的存在。

 


有业界人士认为,顶尖企业之间的战略合作,完善的知识产权保护也是构建 AI 生态的关键因素。寒武纪在这一点上已经走在了很多国内芯片厂商的前面。寒武纪 CEO 陈天石过去曾经提到:“芯片的成败,除了本身的效率之外,生态是非常关键的环节。没有配套的应用和软件,很难在市场上获得成功。这就是为什么我们提出了国际上首个 AI 指令集。只要国产 AI 指令集立住了,中国主导世界 AI 产业的机会可能就到来了。”

 

由于中国对 AI 产业极为重视,更将其视为继智能手机产业、半导体产业之后的官方扶持重点产业,目前政府也提出 1500 亿美元的资金,要重点扶持此类产业的发展。

 

不过,值得注意的是,过去中国智能手机产业过于着重本地市场,未能在第一时间打入国际,致使多数手机公司遭遇成长瓶颈,且因为产品快速薄利化,相关产业链在成长之后快速崩溃,影响社会稳定。而在半导体制程技术方面,则是过度倚赖外来技术,自有研发的比重太低,目前 DRAM、NAND 几大关键零组件还未能自产自足,芯片代工业务也遭遇阻碍。

 

在 AI 产业发展方面,中国政府这次汲取了教训,不仅从最基本的算法和芯片技术核心着手,也了解支持通用标准的重要性,并且把市场目标定位在全球,对于建立生态也有更明确的认知,光是中国本土就诞生了不少 AI 独角兽。

 

因此,就连 Google 母公司 Alphabet 主席施密特也表示,中国的人工智能技术有可能会超越美国,成为主导全球 AI 发展的核心重镇。

 

图丨Alphabet 主席施密特


可以说,寒武纪的产品布局占整个中国 AI 方案布局大蓝图中的核心地位,借由此次的未来产品路线图展示,以及商业策略布局,并且定下了短期目标,那就是要在 3 年内占据中国高性能智能芯片 30% 的份额,并且同时在全球拥有 10 亿台集成寒武纪处理器的智能终端,宣示了借由寒武纪的引领,中国 AI 产业不仅要抢占先机,更要成为包含终端与云端生态中的重要一环,借此主导产业发展方向,发挥产业影响力。

 

-End-