加速材料科学研究 英特尔联合戴尔科技为中科院物理所释放“算力价值”

近年来,材料基因工程被视为是以加速材料研究和材料探索为主要目标的新理念,其中的高通量实验是在海量样品中直接优选新材料、获取实验大数据的基本手段。事实上,自美国在2011年提出“材料基因组计划”以来,相关概念已逐步得到了全球材料科学家的响应。“一村三湖”是中国科学院物理研究所提出的长期计划,其中在北京怀柔雁栖湖的“两平台一装置”,其平台之一就是材料基因平台,并为此与英特尔、戴尔联合构建了高性能计算中心,以提高材料设计效率、加速材料研发过程。

当然,为了更好的理解该HPC平台的实践意义,还是要先了解一下“材料基因组计划”的背景。根据中科院物理所给出的解读,传统材料科学研究主要依赖“试错”实验方法,按照“提出假设-实验验证”的方式顺序迭代,从而不断逼近目标材料,而且造成材料研发与应用的割裂。一种新材料从研发到应用需要10-20年,已无法满足工业快速发展对新材料的需求,急需通过变革研究方法推进材料科学的加速发展。因此,旨在缩短研发周期和研发成本的材料基因组计划,一经推出就得到广泛响应。

当前材料研究的思路是对成分、工艺的调整,获得具有理想微结构与性能匹配的目标材料。材料基因组计划的研发思路是建立成分、工艺、微结构、性能之间的内在联系,然后根据材料对性能的需求,设计符合要求的微结构,根据这种联系,设计并优化材料成分与工艺。可以预见,其中所涉及的关联计算量非常大。无论是在美国能源部所属的橡树岭国家实验室还是劳伦斯伯克利国家实验室,亦或是国家能源研究科学计算中心(NERSC),都将旗下部署的超算中心中超过六分之一的机时用于材料科学相关的研究。

“我们会架设一个高通量计算的作业流程系统。以前大家算材料的时候,比如说我在读博士的时候只算几种材料,每种材料算个半年时间,把它做得很仔细。现在我们的计算算力可以在很短时间内就把一个材料的基本信息算得较为清楚了,包括它的结构信息、材料的热力学稳定性、电子结构信息等等。”中国科学院物理研究所特聘研究员、博士生导师刘淼介绍称,“如果说我们有很强大的算力,就可以在短时间内通过高通量的计算方式,同时算成百上千的材料。”

据了解,在高通量实验中,组合制备能够实现系列样品的平行合成,结合结构和性能的高通量表征,材料基因工程可在短时间内筛选出具有预期特性的新材料,大幅提高新材料研发的效率。通过实验获得材料数据作业流之后会产生大规模的数据,可以供物理、化学、材料等领域的科研人员在研究相关课题时查询检索,并且能够利用AI的方式进行一些和数据科学交叉的相关研究,例如材料的预测和筛选等。

此次,中科院物理所部署的HPC系统采用了基于Intel技术的戴尔科技集团解决方案,包括160个计算节点,搭载了第二代英特尔至强可扩展处理器(金牌6230R处理器),1个GPU节点,以及OPA 100Gbps交换机和接近2PB的存储系统,同时还有英特尔提供的编译器和开源软件。除了高性能计算平台,中科院物理所还设置了材料基因数据集群处理平台,包括一个小型的私有云系统,结合了戴尔科技集团的VMware解决方案,在扩展建设时可接入Pivotal Container Service等容器化服务。

为什么要采用戴尔科技的方案?据介绍,戴尔科技不仅可以采用Intel技术的Intel CPU、Intel网络和Intel软件,还可以在存储和虚拟化软件领域提供成熟领先的产品。在存储系统的设计中,戴尔可以提供全面的分层存储方案。在第0层可以部署内置英特尔NVMe闪存盘的服务器,来搭建数据加速层存储;在第1-2层配置了分布式并行文件系统HPC Storage为计算节点提供高性能的读写访问;第3层部署了可以扩展的分布式NAS系统 - ISILON存储。

在HPC/AI基础设施的管理软件上,戴尔科技的Vmware也进行了不断创新。“我们在6月2日的时候发布了一款VMware基于AI的软件模块,这个模块是业界第一款基于Vmware的GPU虚拟化产品。此外,它还可以做公有云和私有云的无缝对接,支持容器技术,能够迅速搭建一套既能够运行HPC又能够运行AI的环境,而且背后的硬件基础架构平台是一样的。”戴尔科技集团高性能计算实验室主任凌巍才说。

目前,中科院物理所材料基因组研究平台的计算体系主要面向无机晶体材料,包括一些合金、半导体的材料等。“这些材料的原子空间排布是从一个ICSD数据库(无机晶体结构数据库)演变过来的,这个ICSD数据库是经过30年全世界的积累,对材料性质的探测,最终找到了22万个无机晶体材料在空间的原子排布。”刘淼表示,“我们把这些结构拿来之后做一个计算,预计每年可以算10万个以上的材料。也就是说,我们很快就可以把原子在空间排布的空间信息、电子结构信息都算一遍,可以了解到实验上比较难探测的东西。”

在HPC系统上进行研究的过程中,中科院物理所采用了业界公认精度较好的材料计算软件,并且自研了程序包、高通量计算流程以及数据存储处理相关的脚本程序,大量使用了英特尔的并行计算软件,包括数学函数库和MPI等等。英特尔MPI库是实现开源MPICH规范的多结构消息传递库,使用MPI创建、维护和测试高级、复杂的应用程序,在基于英特尔处理器的HPC集群上通常会有更好的执行效果。

从采购需求来看,中科院物理所在选定HPC系统之前曾进行过多次调研,试图在有限投资的前提下找到最优方案,最终选择了英特尔和戴尔的联合部署。“我们要感谢英特尔以及其他的合作伙伴,大家都给了我们很多的帮助,让我们在买设备之前就可以进行评测和测试,有一些测试是英特尔的技术人员来帮我们做的,让我们可以把效率做到最大化。”刘淼说。未来,中科院物理所希望获得更强的基础设施支持,以满足不断增加的计算、存储、网络需求,例如若是每天算1000个密度泛函理论的材料计算任务,就会产生约1TB的数据,对存储系统有着不小的考验。

“我们当然希望算力越多越好,现在很多数理学科在做的科研领域,核心都还是工具的进步。比如说冷冻电镜、扫描隧道显微镜,它的进展其实是工具变得更加高级,使得探测范围、灵敏度更高了。”刘淼谈到,“我们的超算也是一样的,当算力到达一定程度时,比如以前做计算的时候需要很多节点并行成一台计算机来用,现在单台设备的算力高了之后,经常是在一台设备里就可以做独立运算,这样的话,如果有很多台设备,它们之间的通讯成本就会降低一些,这是IT信息行业进步带来的很大的好处。”

注:本文部分信息及描述援引自中科院物理研究所。参考文献包括但不限于

刘俊聪, 王丹勇, 李树虎,等. 材料基因组计划及其实施进展研究[J]. 情报杂志, 2015(1):61-66.

向勇, 闫宗楷, 朱焱麟,等. 材料基因组技术前沿进展[J]. 电子科技大学学报, 2016, 45(4):634-649.

我来评几句
登录后评论

已发表评论数()

相关站点

热门文章