更全的杂志信息网

高维胖树系统中确定性路由容错策略实现

更新时间:2009-03-28

0 引言

近年来,高性能计算技术的高速发展,高性能计算系统已被广泛应用于人类的科研和生产的各个领域。为了满足科研和生产活动对更高计算能力的需求,高性能计算系统规模(计算能力)仍在持续增长。高性能互连网络是高性能计算系统中重要的子系统,该子系统负责高性能计算系统中计算系统、存储系统与I/O设备间的连接通信,是影响系统性能与可扩展性提升的关键因素。尽管单个互连器件的故障概率很低,但是随着互连系统的规模和复杂性的增加,整个互连系统出现故障的概率将会不断上升,给高性能计算系统的可靠性带来巨大的挑战。

根据某个实际高性能计算系统的统计,互连网络器件的平均故障概率约为2.4E-8,在只计算互连故障、排除其他故障影响的情况下,6.4万个进程通信规模作业的平均无故障时间约74 d,作业的平均出错概率为1.3%;而当作业的规模增加至32万个进程通信时,作业的平均无故障时间将骤减至3 d以内,同时作业的出错概率也将猛增至33.66%。目前,互连系统的故障诊断与恢复已成为各大超算中心日常系统运维中的重要环节。当互连故障发生时,如何协助系统运维人员快速地定位和排除互连故障,尽可能地缩小互连故障的影响范围是互连子系统运维过程中亟需解决的重要问题。

根据长期积累互连网络运维经验,针对系统的拓扑及采用的路由策略设计一套高效的互连容错策略是应对互连故障的有效手段。在文献[1]中,我们实现了一种适用于普通胖树拓扑系统的分布式动态路由容错方法,该方法针对不同类型的互连故障定义了一套路由容错算法,当互连故障发生时,互连监控软件能够及时侦测故障,并调用路由容错算法提供一条健康的路径对数据进行路由以避开故障路径。

K-Ary N-Bridge拓扑(又称高维胖树)是一种新型的胖树拓扑结构[2],该拓扑结构由国防科技大学天河互连团队首次提出并应用于实际高性能计算系统的构建,相较于其他拓扑结构,该拓扑可以提供更好的网络扩展性和更高的网络性能。本文对于这种新型拓扑的互连故障进行了分析,并提出了一套适用于高维胖树拓扑的确定性路由容错策略。实验表明,该路由容错策略在实际的高维胖树拓扑系统中取得了预期的容错效果,减少了互连故障的影响范围,提高了系统的可维性和可用性。

1 相关工作

目前在高性能计算的互连领域,主要存在着以Ethernet为代表的通用网络和以InfiniBand为代表的专用网络两大类。Ethernet是采用简单网络管理协议(Simple Network Management Protocol,SNMP)来实现网络管理,该协议是J.D.Case等在1990年提出的,通过网络端口之间周期性地发送双向转发检测(Bidirectional Forwarding Detection,BFD)报文来检查端口状态,若几个周期之内没有收到对端报文,则认为该端口处于“Down”状态,然后规避该端口,并重新发现网络拓扑[3]。而InfiniBand则增加了一层子网管理层,子网管理器通过子网管理代理来感知整个互连网络的状态,当发生互连故障时,子网管理器将启动拓扑发现,并根据当前的互连拓扑重新计算并配置路由表[4]

当前,互连网络的容错研究已成为高性能互连网络领域亟需解决的热点问题之一,具有很高的实用价值。互连网络容错的硬件基础是源节点到目的节点有多条路径冗余,而Butterfly等拓扑只有单一路径,通常需要通过增加链路或者交换机来提供容错能力[5-6],这种方法实现简单,但增加了硬件开销。误路由(misrouting)是另一种常被使用的路由容错方法,该方法使用更长的路径来避开互连故障[7],增加了数据的传输延迟。文献[8]将以上两种容错方法相结合,提出了一种混合容错方法,该方法可以获得更好的容错性能,但同时增加了硬件代价和数据传输延迟。

胖树拓扑是当前高性能计算中使用较多的一种拓扑结构,该结构在源节点和目的节点之间有多条通信路径,具有良好的互连容错支持能力,为动态路由容错方法的实现提供了基础。文献[9]提出了一种由并行胖树构成并且对应交换机由链路相连的拓扑以实现容错。该方法具有良好的静态容错性能,但在动态容错的情况下只能容忍一条故障链路。文献[10]提出在胖树中通过局部误路由的方式实现动态容错,该方法增加了数据的路径长度,增加了网络延时。文献[11]采用了包含排除区间的区间路由方法来实现胖树动态容错,该方法的缺点是健康路径可能被牺牲。文献[12]采用集中式的网络管理来维护网络配置、监测链路状态、传播网络失效和路由信息,以实现胖树中的动态容错。该方法具有很好的灵活性,但由于管理节点需要和网络中的所有交换机相连并通信,其系统的扩展性受到很大的限制。文献[13]针对采用源路由的胖树网络,提出了一种端节点动态容错路由实现方法,相较于分布式路由,其扩展能力有限。文献[14]则提出了一种分布式动态容错路由方法,通过引入了链路失效消息传播机制和动态容错路由算法来实现胖树网络的分布式动态容错,该方法的优点是无需增加硬件代价和路径长度,但该方法只是停留于理论研究,并未实际应用。

2 高维胖树系统及其优越性

构建高性能计算(High Performance Computing,HPC)系统时首当其冲需要考虑的问题是系统采用何种拓扑结构。纵观新一届TOP500(June,2017)榜单中排名前十的系统,除排名第一的“Sunway TaihuLight”采用了商用的Mellanox InfiniBand互连外,其余9台系统均采用了定制的互连系统。根据系统所采用的拓扑结构可将TOP10的系统分为以下三类:第一类是以“Sequoia”“Mira”和“K computer”为代表的 K-Ary N-Cube拓扑结构;第二类是“Piz Daint”“Cori”“Trinity”三台 Cray XC系统所采用的Dragonfly拓扑结构;第三类则是以“Tianhe-2”为代表的Fat Tree拓扑结构。

K-Ary N-Bridge是近年来涌现出了一种新型的拓扑结构,该拓扑综合了K-Ary N-Cube和Fat Tree拓扑各自的优点,因而展现出了更好的可扩展性和网络性能,目前该拓扑已在实际系统中得到了应用。在介绍K-Ary N-Bridge拓扑前,本文将首先对K-Ary N-Cube和Fat Tree拓扑进行简单的介绍。

2.1 K-Ary N-Cube拓扑

K-Ary N-Cube拓扑,又称为N维Torus。K-Ary N-Cube是由K个K-Ary(N-1)-Cube网络通过连接第N维来构成。标准的K-Ary N-Cube拓扑中包含KN个节点,网络中总的链路数为N×KN,网络直径为KN/2,在网络流量均匀分布的模式下,每个报文的平均跳步数为 KN/4,网络的二分链路数4KN-1。8-Ary 1-Cube和8-Ary 2-Cube拓扑结构分别如图1(a)和1(b)所示。

  

图1 K-Ary N-Cube拓扑Fig.1 K-Ary N-Cube topology

2.2 Fat Tree拓扑

Fat Tree拓扑是高性能计算系统中一种常用拓扑结构,其基本结构如图2所示。对N层Fat Tree而言:其最多可连接2(K/2)N个节点;最大跳步数为2N-1;二分带宽为2(K/2)N

2.3 K-Ary N-Bridge拓扑的定义

在高阶路由器的支持下,可以考虑将Torus网络中每维的所有节点通过一个高阶路由器进行连接,即成了一个K-Ary 1-Bridge拓扑,如图3(a)所示。再将K-Ary 1-Bridge拓扑往高维扩展,就形成了K-Ary N-Bridge拓扑,从而有效减少网络跳步数和降低网络延迟。K-Ary N-Bridge拓扑由两类交换机构成,其中直接与节点相连的交换机称为叶交换机,连接不同叶交换机的交换机称为根交换机,其规模为KN-1×KN-2×… ×Ki×… ×K1×K0,其中Ki表示第i维上叶交换机的数量,i∈{0,1,…,N-1}。叶交换机连接每个维度的端口数均为Q,则其总的上行端口数为N×Q;在每个维度上,叶交换机分别与Q个根交换机相连,形成Q-port上行、Ki-port下行的非标准胖树结构,该维度上的根交换机称为i维根交换机。叶交换机用LSW(jN-1,jN-2,…,j1,j0) 表示,其中 ji∈{0,1,…,Ki-1},ji标示叶交换机在阵列中所处的位置。第i维根交换机为RSW(i,jN-1,…,jm,…,ji+1,ji-1,…,j0,p),其中 jm ∈ {0,1,…,Km -1},p∈{0,1,…,Q -1},i表示根交换机所在维度,jm表示第i维根交换机所在的位置,p表示交换机的编号。特别地当N=2时,如图3(b)所示,用RSW(0,k)表示0维中第k个根交换机,RSW(1,k)表示1维中第 k个根交换机,用LSW(i,j)表示叶交换机在二维阵列中的坐标。

  

图2 两级胖树拓扑Fig.2 2-level fat tree topology

  

图3 高维胖树拓扑Fig.3 K-Ary N-Bridge topology

2.4 K-Ary N-Bridge拓扑的优越性

与K-Ary N-Cube拓扑结构相比,K-Ary N-Bridge结构具有以下三点优势:

1)可扩展性更高:K-Ary N-Bridge网络可以方便地扩展网络规模。当节点的端口数和路由器的端口数固定时,仍可以通过用交换机替换维度上的路由器方式来扩展网络规模。如假设路由器设计为K个端口,使用若干个路由器构成2K个端口的交换机,替代K-Ary N-Bridge中的路由器来构造网络,即可构建更大规模的网络。

2)网络直径更小:同等规模下,K-Ary N-Bridge拓扑的跳步数仅为2N;而K-Ary N-Cube拓扑的跳步数则为KN/4;显然K-Ary N-Bridge拓扑可以获得更小的网络延迟。

3)网络性能更高:在同等规模下,当K≥8时,K-Ary N-Cube网络的吞吐率将会下降;而K-Ary N-Bridge拓扑由于使用类似树形的结构,网络吞吐率不会随K的增大而下降,因而可以获得更高的网络性能。

而相较于Fat Tree拓扑结构,K-Ary N-Bridge结构具有以下两点优势:

1)K-Ary N-Bridge拓扑使用单个路由器来连接单个维度上的所有节点,完全摆脱高密度交换机的设计限制,可构建大规模的互连网络。而Fat Tree网络则严重依赖高密度的交换机来扩展规模;

当前,我国人口老龄化问题较为严重。从需求的角度,2020年,全国60岁以上老年人口将增加到2.55亿人,高龄老年人将增加到约为2900万人。此外,老人独居的情况日益增加,目前,我国大中城市老年空巢家庭率已达到70%,到2020年,将增加到约1.18亿人。

2)二分带宽与Fat Tree网络相当,而且随网络规模线性增长。

3 互连故障分类及其影响范围

互连故障是高性能计算机中一类重要的故障。与节点故障不同的是,单条链路或单个交换机故障往往会影响多个甚至全系统所有节点间的通信。在高维胖树系统中常见的互连故障包括链路故障、交换芯片故障和交换机故障三大类。

其中,链路故障可根据其严重程度分为连通性故障和稳定性故障。当出现连通性故障时,报文无法将通过该链路;当出现稳定性故障时,报文可以通过多次重传,到达对端交换机,但会影响报文的传输效率。根据实际经验,链路的稳定性故障若不得到及时的处理往往会恶化成链路的连通性故障。

交换芯片和交换机故障通常表现为掉电,若交换芯片或交换机的上电复位电路发生故障,则有可能引发交换芯片或交换机故障。若发生此类故障,则会导致通过该交换芯片或交换机所有节点或服务器的通信受阻。按照交换机的位置可以分为叶交换机和根交换机故障,其中根交换机故障仅会影响其所在维的通信,而叶交换机故障则会影响该叶交换机所在位置上不同维度间叶交换机的通信。以图4中二维胖树为例,当叶交换机LSW(i,j)发生故障时,叶交换机LSW(a,j)与LSW(i,b)间的节点通信均会受阻,其中0≤a≤K1-1,0≤b≤K0-1(在图中用实线框表示),由于叶交换机故障影响范围大,是高维胖树拓扑中所特有的互连故障类型,因此本文将重点研究此类互连故障的路由容错策略。

  

图4 二维胖树拓扑中的叶交换机故障Fig.4 Leaf switch fault in K-Ary 2-Bridge topology

4 高维胖树系统的路由容错策略设计与实现

当交换芯片发生故障时,由于无法更换单个交换芯片,通常需要将芯片所在的交换机断电后更换,因此在日常的互连维护中,可将交换芯片故障视同于交换机故障来处理。对于链路故障和根交换机的故障,其影响范围及路由容错策略与标准胖树拓扑基本相同,在文献[1]中已有详尽的描述,本文将仅作简要介绍。而叶交换机由于涉及不同维度之间的通信,属于高维胖树拓扑中所特有的故障类型,需要设计新的路由容错方案。

从 叶 交 换 机 LSW(xN-1,xN-2,…,x1,x0) 到 叶 交 换 机LSW(yN-1,yN-2,…,y1,y0) 需要依次经过 LSW(yN-1,xN-2,…,x1,x0),LSW(yN-1,yN-2,…,x1,x0),…,LSW(yN-1,yN-2,…,y1,x0)以及连接这些叶交换机的根交换机。当叶交换机LSW(yN-1,yN-2,…,yz,…,x1,x0) 出现故障时,链路中断,且无冗余路径,此时需要通过误路由来实现容错(公共路径用点划线表示,正常路径用虚线表示,经误路由后的容错路径用实线表示),具体方法如图5所示:由于图中选取的截面内不涉及 z和 z - 1 维之外的坐标,可将 LSW(yN-1,yN-2,…,xz,xz-1,…,x1,x0) 记为 LSW(xz,xz-1),以 z维中由于叶交换机故障而断开的任意一条链路p为例,首先通过修改该故障链路所连接根交换机RSW(z,xz-1,p) 到叶交换机的路由表项,使原本第2跳到的故障叶交换机LSW(yz,xz-1)的报文传递到与z维的相邻叶交换机LSW((yz+1)%Kz,xz-1) 上(用数字2表示),然后通过增加此叶交换机和z-1维根交换机RSW(z-1,(yz+1)%Kz,p)的路由表项的方式使得报文到达z-1维的相邻叶交换机 LSW((yz+1)%Kz,(xz-1+1)%Kz-1)(用数字3、4表示),将故障的叶交换机避开后,即可通过正常路由的方式依次到达 LSW(yN-1,yN-2,…,yz,(xz-1+1)%Kz-1,…,x1,x0),LSW(yN-1,yN-2,…,yz,yz-1,…,x1,x0),…,LSW(yN-1,yN-2,…,y1,x0) 最 终 到 达 目 标 叶 交 换 机 LSW(yN-1,yN-2,…,y1,y0)。由于第3和4跳路径对正常路由不造成影响,故可将该路由表项事先配置到所有叶交换机的交换芯片中,当叶交换机故障发生时,仅需修改与之相连的根交换机RSW(z,yN-1,yN-2,…,yz,xz-1,…,x1,x0,p) 的相关路由配置(图中第 2 跳路径),即可完成误路由修改,从而可以快捷地完成叶交换机的容错处理。

勾践的事迹告诉我们,成功必须努力奋斗,忍他人所不能忍,才能为他人所不能为。勾践的努力使他的人生变得美丽。

  

图5 叶交换机容错原理Fig.5 Fault-tolerance strategy for leaf switch fault

伪代码如下所示:

//shortest path

/*from leaf-switch LSW(xN-1,xN-2,…,x1,x0)to leaf-switch

LSW(yN-1,yN-2,…,y1,y0)*/

我国发展初期,林业资源总量比较丰富,北方森林覆盖率相当可观。为了促进国民经济水平的发展,发展林业资源已成为重要途径。随着更新造林的逐步利用,我国林业资源总量大幅度减少,主要分布在北方林区,林区总面积迅速减少。森林面积的减少破坏了我国北方原有的生态状况,对我国的进一步发展和建设产生了负面影响。目前,我国已逐渐认识到生态环境对未来发展的重要性,正在积极开展退耕还林工作。

S1:if(the first different dimension of dest ID and local ID is z)then{

基质栽培和保护地种植由于空气、灌溉水、前茬种植过程滋生以及本身带有各种来源所带入的病菌会逐渐增多而使后茬作物产生病害,严重时会影响后茬作物的生长,甚至造成大面积的病菌、病毒、线虫以及虫卵传播以至整个种植过程的失败,基质消毒是控制土传病害的重要措施之一[1]。目前,基质消毒的方法主要是物理消毒法,物理消毒法不需要使用消毒药剂,主要有太阳能消毒、蒸汽消毒和热水消毒等[2]。设施农业发达的国家,如荷兰、日本等国,一般普遍采用蒸汽消毒法进行基质消毒[3],这种处理办法可以减少生产过程中化学药剂的使用量,保证产品品质。

…,x1,x0)} //shortest path

S2:else{

For each z dimension root switch do{

output port is to the leaf-switch LSW(yN-1,yN-2,…,(xz+

随着社会的发展,人们对于室内的要求也在不断发展,在原始社会、封建社会和近现代的日常生活中室内所具有的功能与形式不同,并不断的发展[2]。

1)%Kz,xz-1,…,x1,x0)} //misrouting for fault-tolerant

S3:if(in the S1 case but next leaf-switch is going wrong)then{

output port is to the leaf-switch LSW(yN-1,yN-2,…,yz,(xz-1

+1)%Kz-1,…,x1,x0)} /*misrouting for fault-tolerant

//misrouting for fault-tolerant

B水库的单方供水成本从0.17元到0.20元变化,相差值为3分,最高值是最低值的1.2倍,在此基础上确定水价并收取水费,直接影响供水成本弥补额2 619万元,占年成本费用的15%。

}

新旧人员的安置问题闹得不可开交、冲突亦有愈演愈烈之势。4月底,临时大总统袁世凯开始寻求平衡以解决矛盾,遂以手函交国务院,“略谓嗣后国务既由总理及各部总长担负责任,本总统似未便干预,惟当此国基甫定之际,危急存之,关系重要,新员固多才能,旧员亦非不可用,务请详细酌核,勿存成见,是为至要云”。袁世凯专门为旧员任用问题致函国务院,既表明袁世凯对前清旧员的重视和不舍,也无疑是对内阁用人权不同程度的干预。但从实际效果看,这种干预并未达到应有效果,用人上的南北、新旧问题仍持续发酵。

式(5)不等式约束表示当馈线负荷转移后,联络线路所属变电站下所有馈线负荷之和应小于等于变电站允许最大负荷,即变电站不过载。

For each leaf-switch do{

S1:if(input port link to j dimension root-switch the first different

dimension of dest ID and local ID is i and i≠j)then{

output port is the port link to i dimension root-switch}

BEGIN:

S2:else{

output port is the port link to(i-1)dimension root-switch}

and need to be changed by shell script*/

进行实验设计是开展科学探究的重要组成部分,实验设计是围绕所提出的问题进行实验方案设计的思维过程,有助于培养学生的探究能力和科学思维,促进其学科核心素养的养成。实验设计的关键在于变量的确定及控制。在生物学教学中,学生常因为不能正确地分析变量,所以难以设计出比较完整的实验方案,进而影响其实验设计能力的发展。因此加强变量分析教学,帮助学生掌握实验设计的各种变量及其控制方法,是提高学生实验设计能力发展的有效途径。

}

END

5 验证实验

由于高维胖树拓扑中链路故障(包括上行链路与下行链路)和根交换机故障的路由容错策略与标准胖树拓扑中的路由容错策略基本相同,且文献[1]中已有详尽的说明以及实验验证,本文仅对叶交换机的路由容错策略进行验证。

本次实验在一个实际的HPC系统上进行,该系统采用了33×6的二维胖树拓扑。叶交换机的路由容错策略通过Shell脚本实现(config_err_board.sh),该脚本有两个输入参数,第一个参数为交换机的坐标信息,第二个参数表示屏蔽(error)还是恢复(renew)该叶交换机,如图6(d)和6(e)所示。实验使用了AlltoAll通信测试程序来检测节点列表内所有节点间的连通性,该程序的通信模式为节点集合内每一个节点周期性地向其他节点发送一定规模的测试数据块,同时该节点周期性地接收来自其他节点的数据块。实验步骤如下:

1)选定叶交换机LSW(13,2)为目标叶交换机,选取与叶交换机 LSW(a,2) 与 LSW(13,b),(其中0≤ a≤32,a≠13,0≤b≤5,b≠2)相连的节点为节点列表,运行AlltoAll通信测试程序,结果如图6(a)所示。

where Aais the effective action area of the actuator;x is the output displacement of the actuator;Vlis the volume connecting the pump and the actuator;Ciais the leakage coefficient of the actuator;beis the elastic modulus of hydraulic oil.

2)假设互连监控软件检测到叶交换机LSW(13,2)发生了故障,此时通过路由容错脚本来屏蔽该叶交换机,如图6(d)所示。

该方法既能巩固“测量基础”课程中地形图测绘的理论知识、减少了一些繁琐的计算又能和后续的数字测图更好的衔接,同时又能激发学生的兴趣,调动学生实训的积极性,取得了良好的教学效果。

3)对叶交换机LSW(13,2)进行切电,AlltoAll通信测试程序仍可正常运行,如图6(b)所示。

output port is to the leaf-switch LSW(yN-1,yN-2,…,yz,xz-1

4)运行一段时间后,重新对目标叶交换机加电后再利用路由容错脚本来恢复该叶交换机,如图6(e)所示。

桥梁建设过程中临时工程,也是桥梁工程的一部分。脚手架事故是常见的临时工程事故,占到了临时工程事故的一半以上。脚手架是桥梁施工过程中的必要工具,但脚手架结构的整体与部分坍塌以及施工人员的高空坠落事故很容易发生。脚手架的施工作业平台是否牢固,直接影响了桥梁工程施工中的风险指数高低。大多数桥梁工程是在河、湖、海上进行作业,水上作业的风险性大,一旦临时工程出现问题,会影响施工者的生命安全。

各行各业都需要合理的管理,只有合理的管理才能使工作高效有序。管理人员应仔细调查调查合同和概要,要停止盲目调查。有关部门要加强勘探工作,认真核实有关情况。对于某些数据和信息,应进行验证和验证,以避免因为低级错误造成巨大损失。有效的监理使工程科学化、规范化,提高了工程质量。

5)再次观察AlltoAll通信测试程序,测试程序正常运行未受任何影响,如图6(c)。

6)由容错原理可知,配置容错路由后,跳步数增加了4跳,经测试发现配置前的平均延迟为4.98 μs,而配置容错路由后,平均延迟为 5.47 μs,增加了 0.49 μs;点点带宽在配置前后基本保持不变。

  

图6 叶交换机屏蔽和恢复实验Fig.6 Shield and recover experiments for leaf switch fault

实验表明,针对叶交换机的路由容错策略达到预期目标,可以快速实现对目标叶交换机的屏蔽与恢复。目前,该路由容错策略已应用于实际系统的日常运维中,取得了良好的容错效果。

6 结语

本文研究了高维胖树这一新型拓扑中互连故障的类型及其故障影响范围,鉴于高维胖树拓扑中叶交换机故障影响范围大这一特点,采用误路由的思想,设计了针对此类故障的路由容错策略。实验表明,利用该路由容错策略可以有效减少叶交换机故障在系统中的影响范围,便于运维人员及时更换和维修叶交换机。目前,本文所提出的路由容错策略已用于实际系统的运维并达到了快速屏蔽故障叶交换的预期效果。下一步工作计划将该路由容错策略集成到自主研发的互连监控软件中,使得高维胖树系统中互连故障的监测和屏蔽完全自动化。

参考文献(References)

[1] 徐佳庆,万文,蔡东京,等.胖树系统中分布式动态路由容错方法的实现[C]//第二十一届计算机工程与工艺年会.长沙:湖南科学技术出版社,2017:74-82.(XU J Q,WAN W,CAI D Q,et al.Implementtation of distributed dynamic fault-tolerant routing in fat tree system[C]//Proceedings of the 21th National Conference on Computer Engineering and Technology Forum.Changsha:Hunan Science& Technology Press,2017:74-82.)

[2] 方明.高阶互连网络中路由器交换结构及互连拓扑结构研究[D].长沙:中南大学,2013.(FANG M.Research on router switching fabric and network topology for high radix interconnection network[D].Changsha:Central South University, 2013.)

[3] 王焕然,徐明伟.SNMP网络管理综述[J].小型微型计算机系统,2004,25(3):358-366.(WANG H R,XU M W.Survey on SNMP network management[J].Journal of Chinese Computer Systems, 2004, 25(3):358 -366.)

[4] 温建伟.InfiniBand子网管理技术的研究与实现[D].长沙:国防科学技术大学,2009.(WEN J W.Research and realization of InfiniBand subnet management technology[D].Changsha:National University of Defense Technology, 2009.)

[5] KAMIURA N,KODERA T,MATSUI N.Design of a fault-tolerant multistage interconnection network with parallel duplicated switches[C]//Proceedings of the 15th IEEE International Symposium on Defect and Fault-Tolerance in VLSI Systems. Piscataway, NJ:IEEE,2000:143-151.

[6] KONSTANTINIDOU S.The selective extra stage butterfly[J].IEEE Transactions on Very Large Scale Integration Systems, 1993, 1(2):167-171.

[7] CHALSANI S, RAGHAVENDRA C S, VARMA A.Fault-tolerant routing in MIN-based supercomputers[C]//Proceedings of the 1990 ACM/IEEE conference on Supercomputing.New York:ACM,1990:244-253.

[8] SHARMA N K.Fault-tolerance of a MIN using hybrid redundancy[C]//Proceedings of the 27th Annual Simulation Symposium.Piscataway,NJ:IEEE,1994:142-149.

[9] LIN X,CHUANG Y,HUANG T.A multiple LID routing scheme for fat-tree-based InfiniBand networks[C]//Proceedings of the 18th International Parallel and Distributed Processing Symposium.Piscataway,NJ:IEEE,2004:1-10.

[10] SEM-JACOBSEN F O,SKEIE T,LYSNE O,et al.Dynamic fault tolerance with misrouting in fat trees[C]//Proceedings of the 2006 International Conference on Parallel Processing.Washington, DC:IEEE Computer Society,2006:33-44.

[11] MYSORE R N,GOMEZ M E,LOPEZ P, et al.FT2EI:a dynamic fault-tolerant routing methodology for fat tree with exclusion interval[J].IEEE Transactions on Parallel and Distributed System, 2009,20(6):802-817.

[12] GREENBERG A,HAMILTON J, JAIN N.VL2:a scalable and flexible data center network[C]//Proceedings of the ACM SIGCOMM 2009 Conference on Data Communication.New York:ACM,2009:51-62.

[13] 曹继军,刘路,王永庆.源路由胖树网络的端节点动态容错路由方法[J].计算机工程与科学, 2013,35(3):8 -14.(CAO J J,LU L,WANG Y Q.End-point dynamic fault-tolerant approach in source-routing fat trees [J].Computer Engineering & Science,2013,35(3):8 -14.)

[14] 胡农达,王达伟,孙凝晖.胖树中的分布式动态容错路由[J].计算机学报,2010,33(10):1799-1808.(HU N D,WANG D W,SUN N H.Distributed dynamic fault-tolerant routing in fat tree[J].Chinese Journal of Computers, 2010, 33(10):1799 -1808.)

 
徐佳庆,万文,蔡东京,唐付桥,何杰,张磊
《计算机应用》 2018年第05期
《计算机应用》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号