Mellanox:用数据在改变世界,网络在改变计算

网站首页    深度观察    Mellanox:用数据在改变世界,网络在改变计算

时光匆匆,岁月悠悠, 技术引领者和音乐家一样需要强大的创新能力,选择合适的工具将发明和应用组合,像乐团一样配合,快速获得客户信息并快速响应。尤其在今天这样一个互联时代,智能、云计算的浪潮之下,“音乐家”们更是带动了无数创新的“变革交响曲”悄然打破了原有的市场格局。值得欣喜的是,在美妙的乐曲中,在时光洪流的冲刷中,在大浪淘沙中,Mellanox带着自己创新成绩以勇者之姿站在了舞台上,是的, Mellanox作为世界领先的高性能计算、数据中心端到端互连方案提供商,每一年HPC 大会都为我们带来新的惊喜。今年,笔者再次应邀来到HPC China现场,听Mellanox公司全球市场副总裁Gilad Shainer先生与庆春一起向我们讲述Mellanox近来新的成绩、新的变化。

把握核心需求 数据制胜未来

        实际上,应对数据化转型和5G市场的快速进展可以总结为Mellanox的整体技术创新核心点,正如庆春所言, 我们的生活正在因为数据而改变,数据曾经是我们的负担,我们曾经为了如何取舍数据而犹豫不决,现在随着大数据技术的兴起,人工智能技术的发展,我们对于数据变成了无尽的需求,没有人再为数据的量大而发愁,而是努力在得到更多的数据。

        毫无疑问,数据变成了财富,数据变成了价值。 如何充分利用好数据,将数据的价值最大化,现在成为了数据中心用户的核心竞争力。要想利用数据,用数据来做计算是唯一的途径,为了应对这个需求,现代数据中心的规模正在变得越来越大,计算规模和存储也变得越来越大,几万台服务器、甚至几十万台服务器规模的数据中心已经不是新鲜话题,如何来保障这么大规模的数据中心能够充分的发挥它的性能,而不是成为电老虎,是现在所有数据中心用户共同面临的挑战。


 

        从具体产品来分析,     Mellanox公司全球市场副总裁Gilad Shainer先生特别在此次HPC 盛会上主要介绍其完整的端到端 100G,200G和400G产品系列,其中又以全线200G产品作为重点。问及公司为什么会选择将200G作为100G之后的战略重点。

        Gilad Shainer先生表示,200G的强烈市场需求首先来自InfiniBand,包括传统的超算和新兴的AI、深度学习等对带宽、延时非常敏感的企业及应用。200Gb/s的速率是InfiniBand在100Gb/s以后的一个固标节点,因此作为全球InfiniBand标准产品主要供应商的Mellanox公司和其客户对200G的选择是必然的。

      Mellanox的优势在于,公司拥有从光模块、网卡、交换机、服务器到有源光缆的全系列200G产品,是唯一可以提供完整的200G端到端方案的厂家。目前,公司的200G产品已经通过了样品验证阶段,部分大客户将逐渐收到实际的出货产品。

数据寻找新价值

        针对数据中心中CPU计算资源总是不足的问题,Mellanox也提出了解决方案。正如庆春所言,在传统的数据中心中,CPU是用来做计算的核心部分,所有的数据都需要被送到CPU,由CPU来做计算。 CPU的计算包含了应用的计算、通信的计算、存储的计算等,每一类计算都需要独占的CPU资源、内存资源、网络资源,当我们的数据量越来越大、计算单元越来越多的时候,各项操作就会开始抢占资源,CPU、内存和网络就成为了计算性能的瓶颈,特别是像HPC、机器学习、深度学习、大数据和存储等类型的应用,在计算过程中总会有各种归约操作,最后由某一个CPU再作总结,这就需要将所有的数据由网络中的各个计算单元送到这个CPU,导致了网络拥塞、CPU需要花大量的时间来等待数据同步。请参考下图1。而且我们可以看到,在目前的这种以CPU来作为计算核心的架构下,增加CPU的计算能力和数量,或是增加服务器的数量,不但不能解决这个问题,还会使问题更加恶化,导致更严重的网络拥塞。

        新的问题需要由新的思路来解决,既然以CPU为计算的核心不能解决这个问题,那么我们就需要了解导致这个问题的症结在哪儿。答案很明显,就是数据。数据的增长导致了计算规模的扩大、数据的增长导致了网络通信的拥塞、数据的增长导致了存储的容量和性能瓶颈…… 数据带来的问题不是只在CPU、网络、或是存储,而是在数据中心的任何地方。所以我们解决问题的关键就要从数据入手,前面我们也谈到了用数据来做计算是我们的根本目标,现在我们的答案就是以数据为计算的中心,数据在那儿,计算就在那儿。数据在服务器的时候,CPU是主要的计算单元;数据在网络中移动的时候,网络是主要的计算单元;数据在存储中的时候,存储是主要的计算单元……由此而诞生了各种新的计算技术,如网络计算(In-Network Computing)、存储计算等。

 

 

 

 

       

        Mellanox作为端到端的网络设备提供商,主要专注于网络计算,通过将各种通信相关的计算从CPU卸载到网络中来,将大大的降低CPU和主机内存在通信中的消耗,也可以解决需要将大量的数据归约到某台服务器而导致的网络拥塞问题,提升数据中心的计算效率。如下图所示。

 

 

说明: D:\NDA Files\Operation\Marketing\China Marketing\Award\2.png

       

        目前Mellanox能提供的网络计算功能主要包括下面几部分:

        RDMA技术,RDMA(Remote Direct Memory Access,远程直接内存访问)技术直接颠覆了传统的TCP/IP的通信方式,可以直接从网络的传输层将所有的通信相关的计算交由网卡设备来做,不需要CPU参与任何通信计算,甚至在整个通信过程中都不需要和CPU有任何沟通。具体的操作包括将应用的数据在发送端切割成网络可以传输的包的大小和在接收端还原成应用的消息(message)、对于数据进行CRC计算和校验、在发送端和接收端建立直接的数据通道、避免了TCP/IP通信时和CPU的频繁沟通,等等。目前RDMA技术已经被广泛使用到了各种不同的应用当中,如机器学习的各种框架中,TensorFlow、Caffe2、CNTK、NCCL2.0、PaddlePaddle等,都通过对于RDMA的支持得到了不同幅度的性能提升;在大数据分析的应用中,SparkRDMA可以显著的提升Spark的性能;在数据库应用中,Oracle RAC、IBM DB2、SAP HANA等都通过RDMA技术得到了大幅的性能提升;在存储应用中,各种分布式文件系统,如Luster、GLuster、GPFS和SMB Direct等都运行在RDMA上,ISER(ISCSI over RDMA),CEPH over RDMA, NVMe over Fabric默认必须使用RDMA协议来传输数据;在HPC应用中,所有的MPI都支持RDMA。 。

        GPU Direct RDMA技术,这是将RDMA用到GPU计算中来的一个技术。在旧的GPU集群通信过程中,所有的GPU的数据都需要被拷贝到CPU的内存中,然后才能对外通信,这样不但性能低,而且消耗很多CPU的资源,导致CPU成为了通信瓶颈。GPU Direct RDMA技术可以直接在GPU内存和远端GPU内存直接建立一个通信通道,直接传输数据,不需要和CPU有任何沟通,既提升了性能,又降低了主机CPU和内存的利用率。这个技术也被广范用到了AI 和HPC中,如NCCL2.0、CNTK和TensorFlow就在使用GPU Direct RDMA技术。

        SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技术,通过SHARP技术可以将CPU在通信计算中的操作卸载到交换机上来,如Reduce、AllReduce、Broadcast、And、Max、SUM、Barrier等等操作。以机器学习中的主要操作Allreduce为例,通过SHARP技术,所有经过交换机的数据都会在交换机上做Allreduce操作,从这个交换机出去的数据就是汇聚完成后的结果,大大降低了向下一级传输的数据量,经过层层汇聚之后,服务器的得到的数据只是一个已经完成了所有归约操作的数据,直接就可以使用,这样既可以让应用获得更多的CPU计算资源来计算,又有效的解决了大量数据需要送往参数服务器带来的网络拥塞问题。在未来,SHARP技术还能将参数服务器的计算工作完全卸载到交换机上来,直接替代参数服务器,用户可以用交换机来做参数服务器,而不必购买价格昂贵的服务器了。

        NVMe Over Fabric Target Offload技术,在NVMe Over Fabric技术规范里,已经将RDMA定义为默认的传输协议,其原因是NVMe技术的出现,将磁盘访问的速度由原来传统硬盘的毫秒降低到了微秒级,最新的NVMe磁盘可以达到低于10微妙的访问速度,同时NVMe Over Fabric技术也重新改写了传统的存储访问方式,大大简化了存储访问的软件协议栈,提升了从Initiator端到target端的通信效率。目前的最大瓶颈就是在NVMe Over Fabric的Target端,当我们需要写数据到Target里的时候,需要将数据由网络先拷贝到系统内存,然后再由系统内存拷贝到NVMe磁盘;当我们需要从NVMe磁盘读取数据的时候,我们需要做反向的操作。这个操作既消耗了CPU的资源,又增加了读写数据的延迟,同时CPU的计算能力可能成为存储的瓶颈。通过NVMe Over Fabric Target Offload技术,可以直接跳过这些拷贝,通过网卡硬件直接向NVMe磁盘写数据或从磁盘读取数据,可以在零CPU利用率的情况下达到超过百万次的IOPS,大大提升了NVMe Over Fabric的性能。

        SHIELD(Self-Healing Technology)技术,随着应用性能的越来越高,要求的通信效率也越来越高,丢包成为应用不可接受的结果,但是网络出故障总是在所难免。当网络中出现故障之后,如链路断了,丢包就会发生了,如果长时间的丢包发生,应用就会感知并有可能中断运行。目前解决这个问题的方式是由系统的管理软件来侦测故障并采取措施,但是这需要管理服务器等待丢包的信息反馈回来,然后再做处理。如果对于一个上千节点的数据中心来讲,这个过程需要大约5秒甚至更长的时间,对于应用来言,如果有5秒钟或更长的时间持续丢包,一般都会中断运行。SHIELD技术可以通过交换机硬件来在网络中自动处理这种网络故障,自动选择新的路径将后续的数据送到终点,在网管软件采取措施之前已经有的新的传输路径,从而大大降低了丢包的次数和时间,可以在上千节点的规模下达到低于1毫秒的丢包时间,应用将不会感知这个链路问题,大大增强了网络的健壮性。

        Socket Direct和Multi-Host技术,这个技术是为了解决在服务器或是存储端的多个处理器或服务器之间共享网络的问题,一直以来,如何简化网络设计是数据中心管理者一直在思考的问题之一,通过Socket Direct和Multi-Host技术可以将一块网卡分成多个PCIe设备,分别支持多个处理器或是多台服务器,从网卡的上行端简化网络设计,实现总体网络的简化。同时在同一块网卡下的所有CPU或服务器之间可以直接通过网卡上的嵌入交换机来进行通信,不需要走到物理交换机上去,从而提升小范围内的通信性能。

除了以上网络计算功能以外,Mellanox也正在积极开发新的网络计算功能,比如安全计算功能、NVMe Emulation功能等,新的功能将会进一步提升数据中心的性能,给用户带来更大的益处。

        Gilad Shainer先生提到,“采用SHARP技术,在某些HPC和机器学习应用中可以得到10倍以上的性能提升;采用RDMA和MPI加速技术,可以提升35倍以上的性能;采用SHIELD,可以加快5000倍网络故障的恢复时间;采用GPU Direct RDMA技术,可以在一些HPC和AI应用中得到10倍以上的性能提升。网络计算功能可以在HPC和AI应用中大幅提升数据中心用户的ROI和降低投资成本和运行成本,已经被大量的用户应用在他们的数据中心、计算中心和云计算中心中。Mellanox 200Gb/s和400Gb/s的产品将会在今年年底量产,更多的新技术将会用到新的产品中来,用户可以得到更大收益。”

中国市场依然是重点

        Shainer先生还特别提到了Mellanox在中国市场的投入和成长,“Mellanox已经在中国设立了研发中心,将很多关键技术的开发工作放到了中国。在2018年,Mellanox端到端网络产品已经全线进入了中国政府采购网;Mellanox和华为云签订了战略合作协议; Mellanox成为了阿里云的策略合作伙伴共同打造阿里“可信云2.0”;Mellanox也和滕讯云紧密合作,成为腾讯云大带宽、低延迟、高性能网络的重要合作伙伴;同时Mellanox也在刚刚结束的ODCC 2018年会上,成功当选为ODCC专家委员会成员, 未来将积极参与中国数据中心的建设。“

        总之,对于Mellanox来说,公司一直十分重视中国市场,不断在中国加大投入,在北京(中国总部)、上海、深圳、苏州都建有办公室,并且规模在不断扩大,研发人员、工程师团队都在不断扩充,Mellanox对中国市场是充满了信心的。


2018年11月2日 17:04
浏览量:0