您现在的位置是:首页 > IT基础架构 > 计算存储 >

曙光高性能案例:曙光GPU集群管理全面护航中山大学

2012-06-14 21:24:00作者: 来源:

摘要毗邻香港、澳门的广东,是改革开放的前沿阵地和重要枢纽。随着全国经济的加速发展,广东省迫切需要通过产业转型升级、转变经济增长方式,强化区域核心竞争力。而广东高校正起着“发动机”的关键作用, 中山大学计算科学科研团队与广东产业结合,提高广东IT产品创新力和产业竞...

  毗邻香港、澳门的广东,是改革开放的前沿阵地和重要枢纽。随着全国经济的加速发展,广东省迫切需要通过产业转型升级、转变经济增长方式,强化区域核心竞争力。而广东高校正起着“发动机”的关键作用,中山大学计算科学科研团队与广东产业结合,提高广东IT产品创新力和产业竞争力,为政府与企业提供计算支持与咨询服务,将“广东制造”提升为“广东创造”。

  GPU并行化测试应对多任务需求

  中山大学计算科学科研团队以建立多核计算机上的高效能计算方法为研究方向,具体研究内容广泛,包括:

  1、高性能与多核并行计算;

  2、非平稳信号自适应数据分析及其在医学信号处理中的应用;

  3、计算机断层重建新算法及其在医疗图像中的应用;

  4、企业评估和风险预警的统计学习方法;

  5、油气地震勘探巨量复杂数据处理的偏微分方程方法;

  6、高维数据的超快速高精度傅立叶变换;

  7、基于积分方程模型的高精度快速图像处理方法。

  面对冗繁的七项需求,曙光高性能必须根据中山大学GPU集群自编程序、用户众多、应用广泛、需求各不相同的特色提出定制化的解决方案。

  针对中山大学的GPU通用计算特点,曙光高性能解决方案小组分析得出,在上面所列的各种应用中,线性方程组的求解占据重要位置。为此,曙光公司针对稠密、稀疏线性方程作GPU并行化测试。稠密线性方程组在NVIDIA Tesla C2050 GPU下加速3倍;对稀疏线性方程组,与INTEL Xeon X5650 CPU相比,NVIDIA Tesla C2050 GPU能获得5-10倍的加速。根据测试结果,决定选用NVIDIA Tesla C2050 GPU。

  兼具实用性与高性价比 曙光GPU集群管理全面护航中山大学

  为了满足多用户多任务多应用的需求,并考虑到后续扩展性,曙光为该GPU集群作了特殊配置,有如下特色。

  (图1:曙光拓扑结构图)

  集群 GPU 计算节点共配置 200 余块 NVIDIA Tesla C2050 GPU 卡,共提供 118.15Tflops 计算能力,助中山大学进入 2011 年中国高性能计算机性能 TOP100 排行榜。

  曙光公司自主研发的Parastor并行文件系统,两个IO节点,对计算节点提供80G的IO带宽,可大大提升系统的IO性能。Parastor优势还包括: 基于对象存储,使存储更具智能化;对单个目录下的元数据操作进行优化;数据安全性,可选支持多副本方式,充分保护数据安全性;极佳的可扩展性。基于对象存储的体系结构使系统可以支持几万个客户节点,存储容量支持Petabytes级别;由于Parastor已经部署到多个不同规模大小的实际机群系统中,可满足商业和安全应用对正常运行时间的要求;支持多种主流的网络连接,包括TCP/IP,Myrinet,Infiniband,Qrandrics等;和曙光集群管理软件结合,对文件系统部署、文件系统管理、文件系统快速恢复提供良好支持。

  三套网络,专网专用。高速计算网采用Inifiband 40Gbps全互联高速网络,用于并行计算时的数据交换和计算通讯;数据网亦称接入网,采用高性能千兆以太网,主要用于用户接入、IO读写等,同时数据网又作为高速计算网的备份;管理网采用千兆以太网,用于系统管理控制、系统监控、作业的递交、作业监控等监控管理方面的数据通讯,同时管理网又作为数据网的备份。

  众多并行基础软件。集群应用范围很广,因此需要很多基础软件。操作系统:业界知名的Suse 64位企业版Linux操作系统,性能卓越,安全可靠。MPICH和LAM-MPI:最稳定、适用性最好MPI实现,用于跨结点并行程序的开发。并行虚拟机PVM:用于异构系统下的并行程序开发。编译环境:提供GNU C/C++编译器、GNU Fortran77/90/95编译器、PGI/Intel C/C++、Fortran编译器、Java、Python、QT、PERL开发环境,满足多种程序开发需求;特别提供用于GPU程序开发的驱动、cudatoolkit和gpucomputing SDK.

  数学库,程序优化的重要手段。曙光提供AMD核心数学库ACML、基本线性代数库BLAS、针对特定平台性能调优的高性能BLAS库GOTO和ATLAS、线性代数计算子程序包LAPACK、可扩展线性代数库ScaLAPACK、并行可扩展科学计算工具箱PETSc、傅里叶变换数学库FFTW。

  高性能计算平台管理软件。曙光自主研发的Gridview支持GPU计算监控,用户可随时了解GPU软硬件信息,如GPU的型号、软件版本、主频、风扇转速和温度变化等。

  (图2:曙光Gridview软件监控界面)

  曙光公司表示,该系统的构建主要遵从用户的实际需求,秉承先进型、成熟性、可靠性、以及可扩展性的原则,不仅能够满足目前业务的需要,还能适应未来技术发展的趋势,具备实用性与高性价比特点,可有效保护用户的投资。此次中山大学计算科学科研团队高性能计算系统的成功构建,再一次说明了曙光高性能解决方案绿色节能的独特优势。

  目前,中山大学的高性能计算平台上有多个领域的各种应用,例如生命科学领域的进化基因组学与基因功能分析整合及应用、地理科学领域的基于网格计算的地理模拟系统(GSS)平台、环境科学领域的城市群空气质量数值预报和应急救援污染扩散预警、生物化学领域的QM/MM-FEP研究亚铁螯合酶催化机制、信息科学领域的云计算-桌面虚拟化等等。

  作为国内高性能计算领域领军企业,曙光公司推出“产品+软件服务+解决方案”一揽子GPU产品解决方案,以重点客户、重点区域为突破点,带动整体GPU产品销售;并以其特有的GPU监控、加速系统等国内领先技术在GPU行业技术领域取得了重大的突破成果。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们