杜云飞

所属研究所、院系: 
大数据与计算智能研究所
职称: 
教授
办公电话: 
020-37106003
E-mail: 
yunfei.du@nscc-gz.cn duyunfei@mail.sysu.edu.cn
办公地点: 
广州大学城外环东路132号
教师简介: 

长期从事国产高性能计算机系统软件的研制工作,作为技术骨干参与了两代天河,三套系统(天河一号、天河1A、天河二号)的高性能计算机研制,在编译环境、大规模应用优化、大规模系统调试等方面做出了突出贡献。作为主要负责人解决天河一号研制过程中CPU+GPU结构下的异构并行计算效率的关键性问题,最终使得天河一号的CPU与GPU的Linpack协同计算效率提升至70%( 同期代表国际最高水平的AMD公司的Linpack效率仅为20%),为天河系列超级计算机系统位列世界超算排行榜首位做出了重要贡献;并作为主要负责人完成天河二号的CPU与MIC的HPCG协同计算优化工作,性能最终达到623TF/s,取得了HPCG测试连续五次世界排名第一的成绩。

作为超算中心的总工程师,全面负责天河二号系统的建设和应用。构建了天文物理、大气海洋、生物医药、工业设计制造等应用软件平台,研发的天河星光平台投入实际业务使用,建立了基于超算的云计算和大数据平台。

2016年广东省珠江人才计划创新创业团队第一核心成员。主持国家重点研发计划课题和自然科学基金青年基金项目各1项,作为单位负责人承担自然科学基金重点项目1项,负责实施1项国家重点研发计划和广东省重点科技项目,作为技术骨干参与863、核高基、装备型号和预研项目等10余项重大工程和型号项目。发表论文50余篇,获专利授权16项。多次在国际超算重要会议上作报告,是中国计算机学会高性能计算专委会委员,广东省计算机学会超算专委会副主任委员。

NEWS: 长期招收博士、硕士研究生,以及特聘科研人员(副研究员、研究员)、博士后。欢迎优秀本科生加入超算中心,表现优秀者可以推荐至美国、欧洲、香港各地继续深造或国内外著名企业就业。

研究领域: 

1、容器云计算:基于云计算的开发环境、容器环境下的虚拟网络和微服务

2、机器学习的并行框架

3、大规模数据处理和数据管理

4、材料基因组平台软件和数据库建设

5、大规模并行应用的优化方法

    正在进行的项目:

1)天河星光云平台

依托国家重点研发计划的项目支持,基于微服务开发模式,实现大数据和机器学习框架的融合应用,构建物理机、容器和虚拟机等多种资源的融合管理,实现以应用为中心的云平台建设。目前此平台已经线上服务,用户超过1000家。围绕平台,持续开展关键技术研究和突破,开展容器云基础平台,不同应用领域的工作流、混合资源管理系统和数据管理的研究,实现应用软件的全生命周期管理。

2)面向大规模并行计算机的数据处理和深度学习的分布式框架研究

随着应用的日益增加,数据处理和深度学习应用,计算的瓶颈问题日益突出,借助并行计算的能力,重新设计数据处理和深度学习框架,尤其是分布式框架设计及优化、数据存储与管理、工作流调度机制及其应用领域优化等关键技术问题,构建高效的分布式数据处理和深度学习平台,更好的挖掘海量数据背后的内在规律和意义,加速数据驱动型的研究过程。

3) 广东省重大项目:材料基因组工程的软件和数据库建设

依托天河二号超级计算机,构建广东省优势材料产业数据库,研发高通量计算和数据融合的新材料设计平台,实现新材料研发的数据和计算生态基础,,加速重点领域新材料的创新研发,促进 广东省乃至全国的新材料行业的可持续发展。主要内容:开展基于微服务的软件系统框架研究,构建可扩展可集成的软件系统;研究作业管理方法,实现高通量作业的高效自动化管理;研究软件集成方法和统一接口技术,集成多尺度计算模拟软件;研究数据互通及计算和数据的交互方法,实现PB级数据和计算的有效融合;开展数据可视化技术研究,实现数据的在线分析和交互。

4) 中德合作项目:智能机器人仿真平台的优化

面向智能机器人的仿真设计平台,开展并行机器学习和并行计算方法研究,实现大规模、复杂场景下的机器人设计仿真软件平台,将研究成果应用于实际的智能机器人设计中,为先进机器人提供设计平台。

5)并行应用优化研究

面向大气海洋、材料和计算流体力学的并行应用,展开面向体系结构的并行优化方法研究,研究自适应网格的大规模计算、负载均衡等技术,开展通信避免并行算法等并行计算的关键技术研究,将研究成果应用于大规模并行应用软件研发过程中,在应用领域中取得显著的设计效果。

教育背景: 

2017/07-至今:中山大学数据科学与计算机学院,教授、博士生导师

2013.12~2017.06:国防科技大学计算机学院副研究员

2008/12-2013/12:国防科技大学计算机学院助理研究员

2004/02~2008/12 中国人民解放军国防科技大学,博士学位

2001/09~2003/12 中国人民解放军国防科技大学,硕士学位

1997/09~2001/07 北京理工大学,学士学位

获奖及荣誉: 

军队科技进步一等奖,2013

军队科技进步二等奖,2006

军队三等功,        2016

湖南省科技进步二等奖,2012

IEEE Cluster Best Paper Award,2010

代表性论著: 

1、Yunfei Du, Yuhua Tang, Xinwei Xie,A new parallel recomputing code design methodology for fast failure recovery,    Computers&Eletrical Engineering,39(4):1095-1115

2、Cheng Chen, Yunfei Du*, Ke Zuo, Jianbin Fang, Canqun Yang, Towards Fault-tolerant Hybrid Programming over Large-scale Heterogeneous Clusters via Checkpointing/Restart Optimization,Journal of Supercomputing (Minor Revision)

3、Cheng Chen, Yunfei Du, Zhen Xu, Canqun Yang , FT-Offload: A Scalable Fault-Tolerance Programing Model on MIC Cluster,     15th International Conference on Algorithms and Architectures for Parallel Processing, pp.3~17

4、Cheng Chen, Yunfei Du*, Hao Jiang, Ke Zuo, Canqun Yang , HPCG: Preliminary Evaluation and Optimization on Tianhe-2 CPU-only Nodes, 26th IEEE International Symposium on Computer Architecture and High Performance Computing, pp.41~48

5、Hao-Ran Yu, J.D. Emberson, Derek Inman, Tong-Jie Zhang, Ue-Li Pen, Joachim Harnois-De ́raps, Shuo Yuan, Huan-Yu Teng Hong-Ming Zhu, Xuelei Chen, Zhi-Zhong Xing, Yunfei Du, Lilun Zhang,, Yutong Lu, XiangKe Liao, Differential Neutrino Condensation onto Cosmic Structure   Nature Astronomy(Accepted)

6、Feng Wang, Canqun Yang, Yunfei Du, Juan Chen, Huizhan Yi, Weixia Xu , Optimizing Linpack Benchmark on GPU-Accelerated Petascale Supercomputer Journal of Computer Science & Technology, 26(5): 854-865

7、Edmond Chow, Xing Liu, Sanchit Misra, Marat Dukhan, Mikhail Smelyanskiy, Jeff R. Hammond, Yunfei Du, Xiangke Liao, Pradeep Dubey , Scaling up Hartree-Fock calculations on Tianhe-2    International Journal of High Performance Computing Applications, 30(1):85-102

8、Yiqun Liu, Chao Yang, Fangfang Liu, Xianyi Zhang, Yutong Lu, Yunfei Du, Canqun Yang, Min Xie, Xiangke Liao, 623 Tflop/s HPCG run on Tianhe-2: Leveraging millions of hybrid cores       International Journal of High Performance Computing Applications, 30(1):39-54

9、Xuejun Yang, Yunfei Du*, Panfeng Wang, Hongyi Fu, Jia Jia, FTPA: Supporting Fault-Tolerant Parallel Computing through Parallel Recomputing  IEEE Transactions on Parallel and Distributed Systems, 20(10): 1471-1486

代表性专利:

1、一种基于共享内存实现多进程共享GPU的方法

2、面向双精度SIMD部件的矩阵乘实现方法

3、多线程交叉双精度短向量结构的评测激励

4、用于共享存储多核多线程处理器硬件锁的验证方法

5、一种众核加速器优先的CPU和众核加速器间负载划分的方法

6、异构并行计算结点的峰值功耗控制方法    中国     2016.08.17

7、片上Cache网络中基于位置感知的数据预取方法

8、一种基于负载平衡的CPU和GPU两级动态任务划分方法

9、一种基于CPU和GPU协作的分子动力学加速方法

10、一种基于内存缓存技术的多核系统容错方法