[ 吾爱智能导读 ] 现在这个时间节点,正处在人工智能技术爆发的初期,从产业链来看,上游做芯片和服务器的厂商是最受益的,而浪潮就是其中之一。近日,记者采访了浪潮集团AI与高性能产品总经理刘军,聊到浪潮发展史,浪潮AI布局和深度学习框架的话题。 刘军,浪潮,人工智能,服务器 专访浪潮刘军:今年有较大规模AI生意,最担心谷歌TenserFlow一统江湖 AI资讯 第1张

“这一波AI浪潮我们是比较受益的,今年AI方面营收会比去年增长三四倍。因为不管做什么你总需要工具,我们是卖工具的,我们是卖交通工具的。你做生意,拉货,载客,送外卖,总得需要车。”浪潮集团人工智能与高性能产品部总经理刘军说。

刘军曾荣获国家科技进步二等奖,他于2006年加入浪潮, 目前负责浪潮的人工智能和高性能计算业务。历经10年,浪潮高性能计算业务从0到1做到行业领头羊。

浪潮集团成立于1945年,旗下有三家上市公司:浪潮信息、浪潮软件和浪潮国际,具体如下:

浪潮旗下三家公司介绍 专访浪潮刘军:今年有较大规模AI生意,最担心谷歌TenserFlow一统江湖 AI资讯 第2张

浪潮旗下三家公司介绍(注:市值查询自百度股市通

浪潮2017新财年宣布成立人工智能部门,并着力打造多样化的硬件平台、管理调度与分析平台和深度学习框架的“平台组合”,实现前端承接多源数据、后端支撑智能应用,为人工智能提供领先计算力。

目前,浪潮已经是百度、阿里和腾讯的AI计算GPU服务器的最主要供应商,并与科大讯飞、奇虎360、搜狗、今日头条、Face++等人工智能公司深入合作,帮助客户在语音、图像、视频、搜索、网络等方面取得数量级的应用性能提升。

今年已经有较大规模的AI生意

浪潮是一家拥有73年历史的老牌企业。东方红卫星上面用的大电子管就是出自浪潮。80年代,浪潮开始做个人电脑,但后来联想、方正以及国外品牌大规模起来,PC机变成一个完全大规模工业制造的竞争,导致这个领域的盈利空间急剧缩小。

2000年,浪潮把重心转移到做小型机、服务器上,那时正值互联网爆发,浪潮在服务器业务获得快速增长。最近几年,在云计算的推动下,浪潮作为“基础设施的供应商”,业绩成长也非常快。今年6月,IDC发布了最新的X86服务器市场调查报告,2017年一季度中国X86出货量达到49.3万台,销售额为18亿美元,其中销售额排名第一的是浪潮3.6亿美元,其次是华为3.5亿美元和戴尔3.0亿美元。

2017Q1 X86销售额分析 专访浪潮刘军:今年有较大规模AI生意,最担心谷歌TenserFlow一统江湖 AI资讯 第3张

如今,历史的车轮驶入AI时代。我们知道,AI有三大要素:计算力、算法和大数据,其中计算力需要大量的服务器和GPU。刘军说:“我们就是把语音识别、图象识别、搜索、网络安全这些从原来CPU上面搬到GPU上面来做加速,就是在做这样的工作。”

构建大规模的AI系统需要的服务器成本很高,很少创业公司能付得起这个钱,像BAT这些大公司就成为浪潮服务器的核心买单方。

“BAT这几家里面超过80%的AI计算设备都是浪潮的。AI到底给那些做AI应用的公司带来多大的生意,这个我们可能不知道,但是这个确实给浪潮今年已经带来较大规模的生意”, 刘军说,“当然目前看起来AI创业公司在AI计算方面的采购量相对较少,可能连BAT的零头都够不上。”

这背后,其实是服务器本身的演变,带动了需求的剧增。

之前的服务器都是单台,每一台要什么样的CPU、内存、硬盘,然后按照这个型号组装,计量是按台计算。而如今互联网云数据中心对服务器的需求演化到以整机柜的形式,一个机柜有 32个计算节点,每个节点上面有两颗处理器和几十GB内存。

本质上,是互联网带来基础设施的巨大变化。目前云计算逐渐成为公用设施,原来个体化的计算设备,变成像电厂这样的基础设施,一个整装设备来提供。

刘军说,过去computer is a server,就是一个计算机就是一个server,是单台的;现在是叫rack is a server,就是一个机柜是一个server;以后是data center is a server,一个数据中心是一个服务器。

浪潮AI布局上的四个层次

浪潮在AI布局上有四个层次,最底层是硬件基础设施,然后是一个综合性的管理系统,并行框架的扩展,以及端到端的解决方案。

硬件层

目前,浪潮已经发布了AGX-2、GX4、SR-AI、F10A等多款产品。

AGX-2:今年5月,浪潮携手NVIDIA在GTC大会期间发布了加速人工智能计算的超高密度服务器AGX-2,也是全球首款在2U空间内高速互联集成8颗最高性能GPU加速器的服务器。

GX4:单台服务器可扩展4台GX4,实现4到16卡的高扩展性,即一个box里能够挂四块卡,能够同时级联 4个box,挂上16块卡。GX4突破了常规AI计算设备的8卡扩展限制,实现了更高的单机计算性能。

SR-AI:浪潮与百度联合发布了面向更大规模数据集和深层神经网络的超大规模AI计算平台。是全球首个采用PCIe Fabric互联架构设计的AI方案,通过PCI-E交换机和I/O BOX两个模块的配合,GPU和CPU物理解耦池化,二者灵活配置,可实现支持16个GPU的超大扩展性节点,该方案最大支持64块GPU,峰值处理能力为512TFlops,比一般的AI方案性能提高5-10倍,可支持千亿样本、万亿参数级别的模型训练。

F10A:传统FPGA开发采用Verilog、VHDL等硬件描述语言,对开发者要求较高,开发周期也较长,因此在高性能计算应用受到限制。而采用OpenCL的F10A利用软件高级语言和模型编程,开发周期大幅缩短。据浪潮提供的数据显示,在F10A上开发GZIP算法,1名工程师采用OpenCL用时1个月即可独立完成开发,而采用Verilog则需要耗时3个月才能完成移植。

系统管理层:浪潮AIStation, 人工智能深度学习训练集群管理软件

AIstation管理系统能够帮助客户去管理整个深度学习的作业流,

深度学习模型在训练时往往耗时较长,短则数小时长则数天,以往在训练完成后才意识到模型存在问题,大大耗费了用户的精力和时间。

浪潮AIStation可以提供从数据准备到分析训练结果的深度学习业务流程,支持Caffe、TensorFlow、CNTK等多种计算框架和GoogleNet、VGG、ResNet等多种模型,支持对训练过程实时监控并可视化训练过程,实现了“一键式”部署深度学习计算环境、快速启动训练任务,实时监控集群的使用情况,可及时发现运行中的问题,提高集群的可靠性。

框架层:Caffe-MPI,全球首个集群并行版的Caffe深度学习计算框架

浪潮于2015年发布Caffe-MPI深度学习计算框架,代码已在Github上开源。浪潮Caffe-MPI保留了伯克利版本Caffe架构的优良特性,同时又针对高性能计算系统设计使之具备良好的并行扩展性。新版本在4节点16块P40 GPU集群上训练GoogLeNet模型性能较单卡提升14.2倍,训练ResNet模型性能较单卡提升15.36倍,扩展效率高达96%。

 香港浸会大学褚晓文副教授发表的框架测试报告 专访浪潮刘军:今年有较大规模AI生意,最担心谷歌TenserFlow一统江湖 AI资讯 第4张

 香港浸会大学褚晓文副教授发表的框架测试报告 专访浪潮刘军:今年有较大规模AI生意,最担心谷歌TenserFlow一统江湖 AI资讯 第5张

香港浸会大学褚晓文副教授发表的框架测试报告

端到端的解决方案

浪潮AI的端到端的解决方案分为5步:

1、针对深度学习浪潮提供整体解决方案能力,建立从平台、管理、框架及应用四个层次的解决方案;

2、平台层提供面向人工智能最大定制化的架构设计,采用GPU、FPGA提供快速训练与推理计算平台;

3、管理层针对复杂的计算环境采用浪潮深度学习管理平台DeepEngine对计算资源进行管理、调度与监控,实现系统的最大化利用;

4、框架层针对不同的需求以及使用习惯,部署不同的深度学习框架,如Caffe,Caffe-MPI, TensorFlow, CNTK, mxnet等,实现对图像、视频、语音、自然语言的处理;

5、应用层针对用户实际应用需求,设计深度学习模型与算法,实现GPU、FPGA平台的迁移与优化。

这一波AI的技术创新浪潮过来时,整个产业实际上并没有做好准备,目前只有少数的领先的AI科技公司能具备把从全价值链地某个应用场景变成AI的能力,比如百度、阿里、腾讯具备这种能力。但是还有很多成千上万的行业企业客户,他们没有这个能力,但是他们渴望应用AI,这里面有一个巨大的需求缺口,也是巨大的商业机会。

刘军说,浪潮做AI的逻辑是首先跟每个行业建立一个行业AI的典范,证明这个行业可以实现AI。其次,告诉客户这个行业的应用场景实现AI要分成哪几步走,需要一些什么工具和方法来实现。最后,把这形成一套的方法和工具的组合,教会产业链上的合作伙伴,如系统集成商、软件开发商,他们掌握到这一套方法和工具,能够给更多的行业客户实现AI转型。

深度学习框架大比拼:最担心谷歌一统江湖

刘军说,深度学习是个算法,但要把它用起来,需要有一套好用的工具。打个比方,框架就是深度学习的“轮子”。

应该说Caffe的出现引发了深度学习框架的爆发,它是一个大家公认比较好的轮子,可以搭载像Alexnet各种网络的模型,用户可以直接拿来用,只需要在上面根据应用调整模型、参数,目前Caffe是在图象识别领域最受欢迎的框架。之后,深度学习框架如雨后春笋般出现。

MXNet是目前跑得比较快的框架,它由华人科学家李沐开发,被AWS选作云上的标配。

百度做了PaddlePaddle,整体的设计感觉和Caffe心有灵犀,同时解决了Caffe早期设计当中的一些问题(比如说default stream)。

Facebook把Caffe的作者挖过去,今年4月发布了Caffe2,但Caffe2跟Caffe没什么关系。

微软的CNTK,可支持windows这个很有特点,相比来看其他框架是在Linux上面运行的。

谷歌是这里面的很大的一个玩家,2016年4月,谷歌发布TensorFlow,在短短一年多的时间几乎取得领先的地位。它希望把它的生态建设在TensorFlow上,所以它投入了巨大的人力财力开发TensorFlow,从它内部的版本到开发版本,从单机的版本到多机版本,使其性能不断优化。而且,谷歌投入了大量的精力在做TensorFlow的推广和应用,它的社区的活跃度现在是最高的。

谷歌还鼓励很多人在上面做开发,支持很多新的模型在上面适用,这样就形成一个良性的滚雪球。在TensorFlow上,很多问题你一提问,别人都解决了,你需要的很多模型别人已经做好,直接拿来用就可以。但这背后需要很多的钱支撑才能做得到。

相比之下,百度PaddlePaddle有点吃亏,虽然技术上很好,也支持多节点并行设计,但是没有太大投入做推广和社区建设。

“其实对于深度学习框架,技术做出来仅仅是万里长征第一步,尤其像开源这种项目,要花大量的时间去维护它,推广它,这是非常非常重要的,你要去形成你的社区。”刘军说。

他还强调,PaddlePaddle毕竟是国产的做的最棒的一个框架。深度学习框架对于AI发展有很大的作用,在框架没有出现之前,人们去做深度学习算法开发很费精力和时间,有了框架之后,算法的开发变得便捷起来,这就好比给车装上了轮子,让它快速的运转起来,因此,框架非常重要。

而现在,谷歌TensorFlow基本朝着垄断方向在发展了。这个会带来一个什么结果呢?带来就是说实际上不管做什么AI,最后都变成了在TensorFlow上面做AI,你的命脉是掌握在别人的手里。

而且,留给框架开发者的时间不多了。现在如果还想在框架开发上面站住脚的话,一定要在这个时间窗口尽快把宣传、推广、社区建设做出来,再不做出来,以现在谷歌的势头,TensorFlow很难挡得住。

今年5月,谷歌正式发布了第二代TPU ,它号称比GPU还要快,谷歌的战略是以后AI跑在TensorFlow上,TensorFlow跑在TPU上。

目前,谷歌是英伟达的第一大GPU客户,英伟达AI计算芯片三分之一是供给了谷歌,可想而知,一旦谷歌不用GPU而改用TPU,是多么可怕的局面。


【新零售行业峰会来袭!】2016年马云在云栖大会上首提“新零售”,自此“新零售”已成为当下电商界最热词,各电商大佬反复提到“线上线下融合”。如今,无人便利店、无人货架等模式也上升至新的风口,入局者蜂拥而至……

从旧到新,从传统到智能,零售经历着种种变化。对于企业来说,如何做到真正的落地执行?怎样借力实现销量和渠道的裂变?现场演讲嘉宾将在峰会上碰撞出精彩的火花,这将是一场新零售思想的盛宴。

“新零售 智能未来”——2017吾爱智能华东峰会:http://www.iyiou.com/post/ad/id/340

1100-600-01.jpg 专访浪潮刘军:今年有较大规模AI生意,最担心谷歌TenserFlow一统江湖 AI资讯 第6张


2017年9月14日,吾爱智能智库正式发布了《2017中国智能金融产业研究报告》,该报告在梳理智能金融概念、宏观环境和公司现状的基础上,总结了七大应用场景,并分析了金融机构的智能金融应用以及互联网巨头的布局,最后总结了智能金融的未来发展趋势与挑战。了解更多报告内容,请点击:《2017中国智能金融产业研究报告》。

吾爱智能智库:2017中国智能金融产业研究报告 专访浪潮刘军:今年有较大规模AI生意,最担心谷歌TenserFlow一统江湖 AI资讯 第7张

版权声明

凡来源为吾爱智能网的内容,其版权均属北京吾爱智能网盟科技有限公司所有。文章内容系作者个人观点,不代表吾爱智能对观点赞同或支持。

上一篇: 不做消金的互联网企业不是好保险公司,即将上市的众安玩消金玩得很嗨 下一篇: 每日优鲜C+轮再融2.3亿美元,推“三0计划”扶助优质生产者 人工智能 行业观察 行业观察

打赏支持

5510205080100其它金额 任意赏:

扫一扫分享微信

48

80