《云计算与分布式系统:从并行处理到物联网》作者之一 Dongarra 教授荣获2021年图灵奖
发布时间:2022-04-05 20:18:39 编辑:Ly

近日, ACM 公布了2021年计算机领域最高奖项——图灵奖的获得者为美国计算机科学家 Jack J. Dongarra ,以表彰他在数值算法和库方面做出的开创性的贡献,使得高性能计算软件能够跟上四十多年来的指数级硬件更新。这也是高性能计算领域迎来的首个图灵奖!


640.png

图源:ACM官网


    Jack J. Dongarra 美国田纳西大学电子工程与计算机科学杰出教授,美国橡树岭国家实验室首席研究员。他是世界知名的超级计算机与并行计算专家,也是美国工程院院士,清华大学的IV讲座访问教授。


    Dongarra在研究生涯中获得了多项荣誉,包括IEEE计算机先锋奖,SIAM/ACM计算科学和工程奖,以及ACM/IEEE Kennedy奖。他是ACM、电气与电子工程师协会(IEEE)、工业和应用数学学会(SIAM)、美国科学促进会(AAAS)、国际超级计算会议(ISC)和国际工程技术协会(IETI)的Fellow。此外,他还是美国国家工程院院士和英国皇家学会的外籍会员。


    Dongarra通过对线性代数运算的高效数值算法、并行计算编程机制和性能评估工具的贡献,引领了高性能计算的世界。近四十年来,摩尔定律使硬件性能呈指数级增长。在同一时期,虽然大多数软件未能跟上这些硬件进步的步伐,但高性能数值软件却做到了,这在很大程度上归功于Dongarra的算法、优化技术和生产质量的软件实施。他的软件被广泛用做超级计算机性能测评标准,并且由此诞生了非常著名的超级计算机TOP500排行榜。


    Jack Dongarra的工作从根本上改变和推进了科学计算,谷歌高级研究员Jeff Dean表示:“他在世界最大量使用的数值库的核心所做的深入而重要的工作是科学计算的每一个领域的基础,帮助推动了从药物发现到天气预报、航空航天工程和其他几十个领域的发展,他对描述各种计算机性能的深入关注带来了非常适合数值计算的计算机架构的重大进展。”


    四十多年来,Dongarra一直是LINPACK、BLAS、LAPACK、ScaLAPACK、PLASMA、MAGMA和SLATE等许多库的主要实现者或主要研究者。这些库是为单处理器、并行计算机、多核节点和每个节点的多个GPU编写的。他的软件库几乎被普遍用于从笔记本电脑到世界上最快的超级计算机等机器上的高性能科学和工程计算。


    这些库体现了许多深层次的技术创新,例如:


    自动调谐:通过他的2016年超级计算大会时间测试获奖的ATLAS项目,Dongarra开创了自动寻找算法参数的方法,这些算法参数产生了接近最佳效率的线性代数内核,往往超过了供应商提供的代码。


    混合精度算术:在他2006年超级计算会议的论文《利用32位浮点算术的性能获得64位精度》中,Dongarra开创了利用浮点算术的多个精度来更快地提供精确的解决方案。这项工作在机器学习应用中发挥了重要作用,最近的HPL-AI基准测试就展示了这一点,它在世界顶级超级计算机上达到了前所未有的性能水平。


    批量计算:Dongarra开创了将大型密集矩阵的计算(通常用于模拟、建模和数据分析)划分为许多可独立和并发计算的小任务块的计算范式。基于他在2016年发表的论文《用于GPU的分批GEMM的性能、设计和自动调整》,Dongarra领导开发了用于这种计算的分批BLAS标准,它们也出现在软件库MAGMA和SLATE中。


    在上述工作中,Dongarra与许多人进行了国际合作,通过不断开发新的技术,使性能和可移植性最大化,同时使用最先进的技术保持数值上的可靠结果,始终扮演着创新驱动力的角色。他领导的其他例子包括消息传递接口(MPI),这是并行计算架构上可移植消息传递的事实标准,以及性能API(PAPI),它提供了一个接口,允许从异构系统的组件收集和合成性能。他帮助创建的标准,如MPI、LINPACK基准和超级计算机的Top500名单,支撑着从天气预测到气候变化到分析大规模物理实验数据的计算任务。




Jack Dongarra 教授于2013年与黄铠教授合著出版了《Distributed and Cloud Computing: From Parallel Processing to the Internet of Things  》,该书中译本《云计算与分布式系统:从并行处理到物联网》由清华大学武永卫老师领衔翻译出版。是一本全面涵盖计算理论和信息技术(包括设计、编程和分布式系统应用)的优秀教材。

640.png1649161031731665.png

云计算与分布式系统:从并行处理到物联网

(美)Kai Hwang, Geoffrey C. Fox, Jack Dongarra 著

武永卫 秦中元 李振宇 钮艳 译

ISBN:978-7-111-41065-2


本书从现代分布式模型概述开始,揭示设计原理、系统体系结构和并行、分布式与云计算系统的创新应用。书中通过开源应用和商业应用例子,阐述了如何为科研、电子商务、社会网络和超级计算等创建高性能、可扩展的可靠系统。


全面覆盖现代分布式计算技术,包括集群、网格、面向服务的体系结构、大规模并行处理器、对等网络和云计算。


提供的案例研究来自主流分布式计算供应商,如亚马逊、微软、谷歌等。
解释如何利用虚拟化来促进管理、调试、迁移和灾难恢复。


专为本科生或研究生的分布式系统课程而设计——每章后都配有习题和进一步阅读建议,并为教师提供配套的PPT等教辅资源。


专家推荐

“网格计算、对等计算、云计算这些新兴领域近几年日益受到学术界和工业界的关注。预计这些新技术将对商业、科学和工程及社会等众多方面产生巨大影响。本书的及时出版将会帮助读者了解分布式计算领域的最新技术。”

—— Yi Pan, 佐治亚州立大学


“本书是一本全面而新颖的教材,内容覆盖高性能计算、分布式与云计算、虚拟化和网格计算。作者将应用与技术趋势相结合,揭示了计算的未来发展。无论是对在校学生还是经验丰富的实践者,本书都是一本优秀的读物。”

—— Thomas J. Hacker, 普度大学



    许多高校现在已经开设相关课程。教师和学生一直在寻找一本可以全面涵盖计算理论和信息技术(包括设计、编程和分布式系统应用)的教材。本书正是为了满足这一需求而设计,而且本书还可以作为相关领域专业技术人员的参考书。


    本书介绍了硬件和软件、系统体系结构、新的编程范式,以及强调速度性能和节能的生态系统方面的最新进展。这些最新发展说明了如何创建高性能集群、可扩展网络、自动数据中心和高吞吐量云/网格系统。书中还介绍了云编程以及如何将分布式系统和云系统应用于创新的互联网应用中。本书的目的是将传统的多处理器和多计算机集群转换为Web规模网格、云以及在未来互联网中泛在使用的对等(P2P)网络,包括近年来快速发展的大型社会网络和物联网。总的来说,本书总结了近年来从并行处理到分布式计算和未来互联网的进展。



目录

前言
第一部分  系统建模、集群化和虚拟化
第1章  分布式系统模型和关键技术
第2章  可扩展并行计算集群
第3章 虚拟和集群与数据中心虚拟化

第二部分 云平台、面向服务的体系结构和云编程

第4章 构建在虚拟化数据中心上的云平台体系结构
第5章 面向服务的分布式体系结构
第6章 云编程和软件环境
第三部分 网格、P2P和未来互联网
第7章 网格计算系统和资源管理
第8章 对等计算和覆盖网络
第9章 普适云计算、物联网与社会网络

文章来源:https://mp.weixin.qq.com/s/C93rWOvg8VojAXpYbYz83g



实验室地址:莲花街校区6411
河南工业大学 分布式计算与区块链实验室 访问量:202371