摘要: 从公测开始提及 去年9月份E-HPC开始公测,某仿真客户便开始申请使用弹性高性能服务。该客户由于业务关系已开始或多或少使用云计算产品,另外一方面传统制造业发展问题也促使客户想尝试作出一些改变。 通过同客户的初步交流,客户的主要痛点集中在如下方面:客户从事仿真行业,经过服务传统的制造业得到营收,所以客户的客户集中在汽车,航天,船舶等。算法
从公测开始提及后端
去年9月份E-HPC开始公测,某仿真客户便开始申请使用弹性高性能服务。该客户由于业务关系已开始或多或少使用云计算产品,另外一方面传统制造业发展问题也促使客户想尝试作出一些改变。服务器
通过同客户的初步交流,客户的主要痛点集中在如下方面:客户从事仿真行业,经过服务传统的制造业得到营收,所以客户的客户集中在汽车,航天,船舶等。一方面该仿真企业的客户在不一样阶段对算力的需求也不尽相同,有时也忽然遇到比较大的仿真需求的客户,本身机房的小规模的机器常常知足不了生产须要,总的来讲一年四季客户对计算力的需求老是会有各类各样的波动。网络
最开始的弹性运维
E-HPC刚上线时为在云上资源所创建的集群提供了计算机群扩容和缩容的功能,这意味者在云上New出来的计算节点一方面要能部署同其余计算节点同样高性能软件栈,另一方面要求节点要有同一套POSIX帐号体系,以便集群做业调度器可以将用户提交的做业调度到该节点上运行。客户刚开始便很快完成了基于ECS的集群建立,刚开始运行须要几十个计算核心的算例,经过E-HPC的扩容完成计算机群节点的增长,同时能够立刻在该集群运行更多核心的结构和流体求解器计算做业。分布式
能自动伸缩的弹性性能
客户为制造企业提供仿真服务,有些算例客户在运行前能够预估大概须要多少计算核心计算多少时间,但有些复杂算例,客户也没法肯定资源需求量。客户但愿E-HPC产品提供的计算机群可以贴着客户从仿真系统提交的做业数量和实际的真正运行做业的计算核心数走,即客户想尽量用好每个CPU周期,所以但愿E-HPC能帮助客户自动完成自动增长计算节点和自动减小集群的计算节点。因此,AutoScale功能便上线了。AutoScale能够根据整个高性能集群的负载和策略动态调整计算机群扩容和缩容。
同云桌面/GPU服务器的结合测试
通常在仿真工做流里面,完成大量的仿真计算后会进入到渲染阶段,因此通常会通过GPU服务器集群的Pipeline,最后经过云桌面展现给客户的客户。因而E-HPC开始支持自定义镜像,方便客户从带有特色渲染软件的镜像启动GPU实例完成仿真后处理工做,而且E-HPC开始推出支持竞价实例的扩容方式以便客户可以使用较低的成本完成一些无状态的训练任务。阿里云
超级计算集群
传统的高能计算,为了计算的极致,从每一年的Top500来看,在计算存储网络方面都有很明显的特色。首先,在计算方面高能计算的集群的计算节点倾向于选择高主频类型的处理器,频率基本都在3GHz~4GH;其次在存储方面 基本是基于传统企业级盘阵,存储系统的可靠性放在盘阵自身的容错能力上,不多使用多副本的方案;在网络方面,传统应用多使用基于同步通讯的并行算法,所以为了能达到较大的加速比通常使用低延迟的RDMA网络甚至是专门定制的通讯网络。云计算
年初云上超级计算集群(SCC)开始公测,提供能运行超算应用的计算存储和网络基础设施,SCC可以给流体仿真之类的有限元分析软件提供近乎线性的加速比。结合E-HPC提供的弹性,客户很快便完成了POC测试。
咱们能够看到对于一样几亿单元的有限元分析,使用SCC不管是单节点的计算能力仍是多节点加速比都有显著提高,所以客户给反馈了以下的测试感觉:
“1.计算性能强劲:不管是单节点的计算能力,仍是多节点分布式计算能力都有显著提高,在测试项目计算规模以内,均可以得到很是不错的加速效率”
“2.集群互联IO性能:RDMA高速互联能够知足必定范围内的大规模的机械,流体等仿真应用计算要求,效果显著” ,要性能有性能,要弹性有弹性以后,客户便更有信心将仿真生产系统往云上迁移。
仿真应用迁云
该仿真客户通过多年的仿真服务实践,开发了一款仿真系统,该系统集成了制造仿真行业经常使用的商业软件,基本覆盖碰撞仿真,流体动力学,机械结构,电磁模拟等。
该仿真系统提供了统一的Portal给不一样的制造企业以一致的体验完成仿真工做流,早期的系统结构基本以下图所示:从中咱们能够看出早期的结构基本立足于传统超算,融合了CAE并行计算、计算资源调度、软硬件资源管理、远程图形桌面以及CAE专业应用等技术,由此面向仿真用户提供仿真计算服务。客户须要很重的成原本拥有这些基础设置做为生产资料来服务客户的客户。然而,通过交流,客户的心声是作仿真他们是专业的,可是经营IT基础设施只是为了维持他们的仿真生产系统而进行的活动;他们想专一于仿真服务,而将IT基础设施迁往云上,因而客户便有了仿真系统迁云的想法。
客户想经过将仿真系统迁云,达到如下效果:
1.用户不须要购买任何物理IT硬件资源,经过Web便可开展仿真分析工做。
2.统一管理和调配专业软件软件管理,充分利用昂贵的CAE软件资源。
3.经过云计算弹性充分利用云上资源进行仿真。
通过逐渐的验证,客户在阿里云上完成了将仿真流程收敛到下面的结构:
从上面的分析,咱们能够发现客户可以更加专一于仿真工做流自己,而将对IT基础设施的使用变成了阿里云上一条一条的OpenAPI;须要集群时经过一条OpenAPI New出一个超算集群,算力不够时经过一条Open API New出新的计算机群,做业空闲时经过一条Open API释放计算机群,不想手动操做时经过一条Open API 自动伸缩集群。客户不用再考虑自建机房,备货,扩建,设备运维...... 。
总结
随着工业仿真技术的不断发展和成熟以及工业产品的自身的复杂程度愈来愈高,目前如今多数工业仿真对象都是在各类复杂物理环境条件状况下进行的,这种状况决定了完成工业级的仿真工做须要大量的计算和高性能的存储资源,以及配套的能够执行快建立和访问仿真模型和数据,并可以实现较高程度的自动化仿真流程。工业上的仿真技术在产品研发中所扮演的角色在流程上愈来愈靠前,再也不是产品设计完成后的后端验证。与此同时,工业仿真技术在产品生命周期的下游也发挥着愈来愈重要的做用,好比分析来自工业物联网中机器的实时操做数据。所以,工业仿真所需计算资源、人才培养、环境建设的难度都在增长。但对于企业来说,搭建一个环境并培养专职的仿真工程师并不容易,仅仅是购买软硬件的需求调研就可能花费数月时间,以后还得投入大量的时间和精力进行专业领域仿真培训和应用部署。
同其余的企业级IT应用同样,云计算技术正在给仿真应用带来巨大的改变。经过仿真云平台可以对产品进行设计、改进、创新进行模型的快速验证和方案的对比。对于传统制造企业来讲,使用云计算技术的价值归根结底是不用购买和管理物理计算集群,从而能够改变传统的仿真应用流程,更加专一于仿真应用自己。基于云计算技术,企业将能够用到更加灵活的软件使用价格,并能够随时随地进行建模解决复杂的仿真应用问题。借助同时模拟多个不一样设计方案的能力,基于云计算技术的仿真能够支持传统制造业更轻松地进行产品设计和工程仿真。经过在阿里云上仿真,能够很快获取弹性资源,可以在很短的时间就能够进行完整的仿真生产流程。无论是加快产品创新,仍是知足制造业不断增加的仿真需求或是,增强全球合做提升IT投资回报率,都会收到立竿见影的效果。