AWS、Google、Azure-HPC方案调研报告
1.AWS的HPC方案
1.1 方案是什么
AWS有用一整套HPC产品和服务,以供在云中运行大型复杂的模拟和深度学习工作。AWS的HPC服务包括以下产品:
产品 | 说明 |
---|---|
Amazon Elastic Compute Cloud(EC2) | 提供广泛、深入的计算平台,拥有超过 500 个实例,安全可调整大小的计算容量,以满足任意工作负载的需求。 |
Elastic Fabric Adapter(EFA) | Amazon EC2 实例的网络接口,用于大规模运行 HPC 应用程序。可以在任何支持的 EC2 实例上免费启用此功能,EFA 可与用于节点间通信的最常用接口、API 和库配合使用,因此只需稍作修改或无需修改,即可将 HPC 应用程序迁移到 AWS。 |
AWS ParallelCluster | 开源集群管理工具,可用于在 AWS 上快速构建、部署和管理高性能计算(HPC)计算环境。 |
AWS Batch | 云原生批处理调度器,可跨所有 AWS 计算服务和功能扩展数十万个计算任务。同时优化计算资源,令使用者能够专注于分析结果和解决问题。 |
Amazon FSx for Lustre | 提供完全托管式共享存储,兼具常用 Lustre 文件系统的可扩展性和性能。 |
Amazon FSx for OpenZFS | 提供基于 OpenZFS 文件系统构建的完全托管式共享文件存储。 |
NICE DCV | 高性能远程显示协议,为客户提供安全的方式,以在不同的网络件下从任何云或数据中心向任何设备交付远程桌面和应用程序流。 |
NICE EnginFrame | NICE引擎集成框架,集成本地和AWS高性能计算环境,通过一个统一的界面为本地和云工作流提交作业 |
主要产品Amazon Elastic Compute Cloud(Amazon EC2) 经过多种优化,存在不同案例的实例提供选择,由不同配置组合而成。
产品 | 描述 | 特点 |
---|---|---|
Amazon EC2 通用型 | 计算、内存和联网资源三方面的平衡,可用于各种不同的工作负载。适合于以相同比例使用资源的应用程序 | 高性能、适用性广、支持各类框架,适合中小企业和个人用户 |
Amazon EC2 计算优化型 | 适用于批处理工作负载、媒体转码、高性能 Web 服务器、高性能计算 (HPC)、科学建模、专用游戏服务器和广告服务器引擎、机器学习推理和其他计算密集型应用程序 | 更高的性能、支持集群部署,功能扩展多,适用于大规模数据处理场景 |
Amazon EC2 内存优化型 | 提高可处理内存中大型数据集的工作负载的性能 | 支持大容量内存数据结构和数据库,适用于处理大量数据的场景 |
Amazon EC2 加速计算 | 使用硬件加速器或协同处理器来执行浮点数计算、图形处理或数据模式匹配等功能,比使用在 CPU 上运行的软件更高效 | 高性能计算、大规模并行,适用于高性能、大量数据和计算的任务 |
Amazon EC2 存储优化 | 用于需要对本地存储上的大型数据集进行高速连续读写访问的工作负载每秒可以向应用程序交付数以万计的低延迟、随机 I/O 操作 (IOPS) | 高I/O性能,适用于大规模数据分析、媒体处理和大规模缓存 |
Amazon EC2 HPC优化 | 专为在 AWS 上大规模运行 HPC 工作负载提供最佳性价比而构建 | 高性能、大规模并行,适用于大型复杂模拟和深度学习场景 |
1.2 方案特性/特征/特色分析-主打优势/亮点是什么
高性能计算:通过EC2实例、Elastic Fabric Adapter(EFA)和AWS Batch等服务,可以满足各种规模的高性能计算需求。
高度可扩展性:AWS的HPC方案可以根据应用场景的需求进行快速扩容和缩容,可以满足不同规模的计算任务需求。
灵活部署:AWS的HPC方案支持多种部署方式,包括公共云、专用云和混合云等,可以根据客户需求进行灵活的部署选择。
网络性能:AWS的HPC方案具有高度优化的网络性能,可以支持大规模的并行计算和数据处理。此外,AWS还提供了Elastic Fabric Adapter(EFA),它可以实现高性能的计算和数据传输,适用于大规模的HPC应用程序。
易于管理和监控:AWS的HPC方案提供了丰富的管理和监控工具,包括AWS CloudFormation、AWS Systems Manager和AWS CloudWatch等,可以方便地管理和监控HPC应用。
**易用性:**这是AWS HPC优势最大的优势,AWS提供易于理解的定价、功能和配置选择,相当全面的操作文档、视频说明,以帮助用户更快上手。
**灵活性:**支持用户熟悉的操作系统、编程语言和Web程序,所有环境均在云上面无缝运行所有服务,并支持迁移,简化上云流程。
高性能:拥有一整套完备的HPC产品服务,可直接在云上运行大型、复杂的模拟仿真和深度学习工作服在,获得近乎无限的计算容量、高性能文件系统和高吞吐网络。
**可靠性:**AWS为全球200多国家和地区的超过100万活跃客户提供服务,支持机器故障后自动回复,保证用户数据。
**可扩展和弹性:**允许自动增加、缩减资源容量。即可在几分钟内即可增加新的服务器,或自动缩减资源,以满足用户需要。
1.3 方案怎么卖的,报价是多少,(市场)主要客户有哪些,市场规模怎么样、有哪些典型的客户案例
售卖方式
AWS的HPC方案是通过AWS云平台进行售卖。用户可以在AWS云平台上创建账户,并选择所需的HPC服务。根据服务的不同,用户需要支付相应的费用。AWS的HPC服务包括计算、存储、网络等。通常情况下,AWS的HPC服务采用按需付费的模式,即用户只需要支付自己使用的服务费用,不需要支付任何额外的费用。用户可以通过AWS的云服务平台进行购买、管理和监控自己的HPC服务。
部分产品有用免费试用计划:
产品 | 类别 | 说明 |
---|---|---|
Amazon EC2 | 计算 | 每月750个小时实例使用时间,免费试用12个月 |
Amazon RDS | 数据库 | 20GB数据库存储/20GB备份+快照存储,免费试用12个月 |
Amazon S3 | 存储 | 5GB/20000 个 Get 请求,免费试用12个月 |
Amazon API Gateway | 应用程序 | 每月接收API调用100万次 |
Amazon SageMaker | 机器学习 | 每月250小时,免费试用2个月 |
主要产品Amazon EC2 计费模式
计费方式 | 计费说明 | 使用情况 |
---|---|---|
按需计费 | 按小时或秒数支付计算容量,无需长期购买 | ● 要求低成本,不想预付款或签订长期合同 ● 工作负载具有短期、无法预测且不能中断的性质 |
Savings Plans | 在1~3年内稳定使用 | ● 使用情况长期、稳定 ● 享用最新实例 |
Amazon EC2竞价型实例 | 利用AWS云中未使用的EC2容量,与按需计费相比,折扣高达90% | ● 容错或允许中断的工作 ● 应用程序开始和结束时间灵活 |
专用主机 | 专供用户使用的物理EC2服务器。专用主机允许按需购买,也可在部分Savings Plans 中购买 | ● 希望节省许可费用的用户 ● 内部HPC迁移用户 |
按需容量预留 | 在任意时间段内的特定可用区为实例预留计算容量,缓解容量有限从而无法按需获得容量的风险 | ● 需要容量保证的业务关键型工作负载 ● 满足高可用性监管要求的工作负载 ● 灾难恢复 |
按秒计费 | EC2使用量按每秒增量计费,最少为60秒 | ● 不规则时间段内运行的实例 |
报价
AWS 的 HPC 方案有多种不同的配置和选项(预付费或按需),甚至根据使用率和地区不同,报价情况也会有所不同。官网定价页面:https://calculator.aws/#/addService?refid=ft_card
主要计算产品Amazon EC2的配置与价格如下(单位 USD):
产品 | 配置 | 地区 | 类型 | 操作系统 | 按需每小时成本 | 计算存储计划 | 实例存储计划 | 按需使用 | 竞价型实例 | 预留实例 |
---|---|---|---|---|---|---|---|---|---|---|
Amazon EC2 | t3.medium/2vCPU/4 GiB | 香港 | 共享实例 | Linux | 0.0584 | ● 1年:预付345.14或每月30.81 ● 3年:预付678.02或每月20.81 | ● 1年:预付300.47或每月26.79 ● 3年:565.02或每月18.03 | 在100%的实例使用量下,每月42.63 | 假设折扣在43%时,每月24.3 | ● 1年:预付300或每月26.79 ● 3年:预付566或每月18.03 |
存储产品Amazon EBS的配置与价格如下(单位USD):
产品 | 地区 | 卷数 | 平均持续运行时间 | 存储类型 | 存储量 | 快照频率 | 每个快照更改量 | 月度成本 |
---|---|---|---|---|---|---|---|---|
Amazon EBS | 香港 | 1 | 730h/每月 | 通用型SSD(gp2) | 30GB/卷 | 每小时 | 3GB | 65.75 |
托管服务Amazon API Gateway 的配置与价格如下(单位USD):
产品 | 地区 | 请求类型 | 请求量 | 请求平均大小 | 连接时间、速率 | 缓存 | 月度成本 |
---|---|---|---|---|---|---|---|
Amazon API Gateway | 香港 | HTTP API | 1亿/每月 | 512KB(大于512 kb算2个请求) | x | x | 138 |
REST API | 1亿/每月 | x | x | 0.5GB | 489.98 | ||
WebSocketAPI | 1亿/每月 | 32(大于32 kb算2个请求) | 1s/s | x | 126.52 |
AWS的HPC方案的市场占有是什么样的
市场规模
略。
市场评价
如下网站均为全球知名的企业级软件评论平台,这些平台汇聚企业软件和服务决策者的同行评审评级,为其他潜在客户在选择合适供应商时提供参考和指导。
评论网站 | 评分 |
---|---|
Gartner Peer Insights | 4.7 out of 5 |
TrustRadius | 9.0 out of 10 |
G2 | 4.6 out of 5 |
Capterra | 4.6 out of 5 |
PeerSpot | 4.4 out of 5 |
主要客户
合作伙伴页面:亚马逊云科技高性能计算能力合作伙伴
主要服务于各种科学和工程领域的客户,例如生物医学研究、能源、金融、仿真、气候、环境、政府及科研项目等。
以下是一些AWS的HPC方案的主要客户:
领域 | 公司/机构 |
---|---|
科学研究机构 | 美国国家航空航天局(NASA)、美国国家气象局(NOAA)、美国国家环境保护局(EPA)等 |
学术机构 | 哈佛大学、麻省理工学院、斯坦福大学等 |
金融机构 | 花旗银行、汇丰银行、摩根士丹利等 |
制造业企业 | 美国铝业公司、日本神户钢铁、宝马、通用电气、三星等 |
媒体和娱乐公司 | 华纳兄弟、迪士尼、Netflix等 |
航空航天领域 | 飞机制造商和航空航天公司,如Airbus、Boeing、SpaceX等 |
政府机构 | 美国国防部、英国国防部、澳大利亚国防部等 |
典型案例
FCD仿真设计:法国公司 FLYING WHALES为了设计一种高载重的货运飞艇需要运行复杂的CFD流体运动学计算。但由于物理测试成本过高,且内部HPC资源较弱,因此需要将其HPC迁移到AWS云上。购买了Amazon EC2 C5n.18xlarge 实例和 EFA ,使用竞价型实例来预置C5n实例,将HPC集群成本降低了64%。在工作性能上,将CFD工作流作业的运行速度提升了15倍,使得公司可以如期交付产品。AWS HPC的快速扩展性能接近于国家超级计算机的水平,工程师不必在作业队列中等待运行模拟,每周节省几十个小时时间。
科学研究:美国加州理工学院一间生物实验室需要研究新型基因。由于预算有限,无法搭建本地集群,且计算需求不断变化,需要一个具有弹性且灵活的HPC集群。接入AWS后,使用了Amazon Virtual Private Cloud (Amazon VPC) 。借助于AWS,实验室无需花费时间定期计算资源使用量,也无需定期更新硬件。扩展资源时直接在云上操作,无需走流程采购实体。在性能方面,基因组测序分析所需时间从数周缩短为数天。对于非Linux用户,实验室使用Amazon WorkSpaces 托管桌面计算服务,使Windows用户直接从实验室PC连接AWS,拥有与Linux用户同等的的访问权限。
生物医疗:美国公司Illumina长期使用AWS来分析管理基因组数据,每个月在AWS服务商花费100万USD,只是计算方面每个月就要花费40万USD。在成本优化项目中,Illumina使用了Amazon EC2 Spot 实例运行分析软件,这些实例与按需使用相比价格更低,每个月计算成本从40万降低到10多万。通过将部分不频繁访问的数据分层到其他标准,每个月又能节省9万USD的存储成本。使得Illumina能够降低客户使用门槛,提高产品使用率,为客户提供成本更低、性能更好的基因分析平台,这对临床市场客户尤为重要。
金融:美国金融公司Aon Securities Inc. (ASI) 通过金融建模工具PathWise 帮助保险公司为其投资产品分析风险,需要高扩展性的计算资源。接入AWS后使用Amazon EC2和Amazon Elastic Block Store (Amazon EBS) 进行自动运行和持久存储,可以实现在几分钟之内而不是8个小时运行500万个策略,使得原本10天的流程缩短到了10分钟,提高了管理效率,精算师可以将时间放在对数据的处理上,而不是建设基础设施。
2. google的HPC方案
1.1 方案是什么
行业 | 解决方案 |
---|---|
医疗保健和生命科学 | 将数据分析用于药品开发利用 Google Cloud 高性能计算来分析和处理海量数据,发现更多具有前景的药物靶点,并推动科学研究的发展。 |
金融服务 | 1、使用高性能计算进行风险模拟获取实时或按需大规模计算和模拟风险所需的所有计算资源,而无需构建用户自己的服务器场。2、使用高性能计算执行定量分析Google Cloud 的规模和速度支持使用高效且可扩缩的计算资源进行定量研究,并将用户的想法转化为盈利策略。 |
制造 | 借力 HPC 加速研发推出支持 AI 的产品和服务,发掘新的洞见用于创新,并通过高性能计算加速用户的工程和设计流程。 |
教育 | 高性能计算Google Cloud 灵活且可扩展的产品有助于加快完成时间,因此可以将想法转化为发现,将灵感转化为产品。 |
1.2 方案特性/特征/特色分析
1.2.1HPC主要特性
利用云的灵活性、功能和规模加快 HPC 工作负载速度
利用 HPC 工具、服务和合作伙伴解决方案,充分发挥拥有最新强大基础架构的高级 HPC 虚拟机的功能。
1、强大的基础架构
Compute Engine 的虚拟机采用了最新的 CPU 和 GPU,支持实时迁移,可以使用高性能对象、数据块和文件存储空间,并且基于吞吐量高、延迟时间短的虚拟机到虚拟机网络。
2、PC 工具和服务
从使用 Batch 轻松扩缩工作负载,到使用 GKE 灵活运行容器化的 HPC 工作负载,再到使用 Google Cloud HPC Toolkit 部署全自动扩缩 HPC 集群环境,Google 的 HPC 工具和服务可让用户轻松运行较棘手的工作负载。
3、广泛的合作伙伴生态系统
Google 与众多应用开发者、工作负载管理员、存储提供商和系统集成商合作,确保用户的应用在 Google Cloud 上以较佳方式开箱即用地运行。
1.2.2优势
灵活强大的 HPC 平台,为创新开辟道路
1、更快获得结果
根据成熟的最佳实践,利用 Cloud HPC Toolkit 在几分钟内创建 HPC 集群。借助预配置的 HPC 蓝图快速启动作业,获得可预测的性能。
2、推动并维持创新
利用按需使用的高性能资源为团队助力。在最新的 Intel 和 AMD CPU、NVIDIA GPU 和高吞吐量、低延迟的对象和文件存储上构建和运行密集型工作负载。
3、只为需要的服务付费
借助预算和承诺使用折扣,控制和管理费用。 为用户最灵活的工作负载使用 Spot 虚拟机,节省高达 90% 的费用。
1.2.3为 Google Compute Engine 引入计算和内存优化的虚拟机
计算优化的虚拟机
计算优化 VM (C2) 是 GCP 上的一个新计算系列,具有高每线程性能和内存速度,有利于大多数计算密集型工作负载。计算优化的 VM 非常适合 HPC、电子设计自动化 (EDA)、游戏、单线程应用程序等。与当前的 GCP VM 相比,新的 Compute-Optimized VM 的性能提高了 40% 以上。它们还利用第二代英特尔至强可扩展处理器,可以以 3.8 GHz 的持续时钟速度运行。此外,C2 VM 提供对底层服务器平台架构的完全透明性,从而实现高级性能调整。可以选择具有多达 60 个 vCPU、240 GB 内存和多达 3TB 本地存储的计算优化 VM。Compute-Optimized VM 目前处于 alpha 阶段。
内存优化虚拟机
内存优化虚拟机 (M2) 为 Compute Engine 虚拟机提供最高的内存配置。它们非常适合内存密集型工作负载,例如大型内存数据库(例如 SAP HANA)以及内存数据分析工作负载。18年7 月,发布了具有高达 4 TB 内存的内存优化 VM。现在 M2 系列提供高达 12 TB 的内存和 416 个 vCPU,使用户能够在 GCP 上运行扩展工作负载。这些 VM 也基于第二代 Intel Xeon 可扩展处理器,这些最新的内存优化 VM 将提供以下尺寸:
1.3 方案怎么卖的,报价是多少,(市场)主要客户有哪些,市场规模怎么样、有哪些典型的客户案例
1.3.1报价
采用随用随付的价格模式,只需为实际使用的服务付费。没有预付费用,也没有终止费用。价格因产品和使用情况而异。
价格表:
https://cloud.google.com/pricing/list?hl=zh-cn
1.3.2客户&案例
客户&案例:
行业 | 客户 | 案例 |
---|---|---|
医疗保健 | Broad | 云平台分析人类基因组的速度提高 400%https://cloud.google.com/customers/broad-institute |
生命科学 | Schrödinger | 加速药品研发https://cloud.google.com/customers/schrodinger?hl=zh-cn |
科技 | 1、AirBus2、Banggood3、琥珀移动4、美图 | 1、Airbus Defence and Space 的 Intelligence 业务线利用 Google Cloud Platform 构建了一个可扩缩的在线平台,让客户能够实时访问 PB 级的卫星图像。https://cloud.google.com/customers/airbus/?hl=zh-cn2、Banggood通过在Google Cloud上使用翻译API自动翻译大量的产品信息和网站内容,降低了本地化成本和周转时间。https://cloud.google.com/customers/banggood/?hl=zh-cn3、琥珀移动利用Firebase和BigQuery提供的数据,开发以用户体验为中心的应用,满足顾客的需求。https://cloud.google.com/customers/ambermobile/?hl=zh-cn4、美图使用Google Cloud来收集并分析数据,以更深入了解其用户。基于分析结果,美图得以开发出一个便于使用的人工智能平台,让人们可以用数字方式让自己变得更美。https://cloud.google.com/customers/meitu/?hl=zh-cn |
零售与消费品 | 1、Carrefour2、Lush | Carrefour 运行 SAP on Google Cloud,通过全面的数据集中化为线上和线下的客户提供最佳服务。https://cloud.google.com/customers/carrefour/?hl=zh-cn2、在 22 天内,Lush 将其全球电子商务网站迁移到 Google Cloud Platform,显著提高了网站的可靠性和稳定性https://cloud.google.com/customers/lush/?hl=zh-cn |
游戏 | 1、King2、LINE GAMES | King 使用 BigQuery 构建云端数据仓储平台,通过 Google Cloud 机器学习技术降低成本并提升分析能力。https://cloud.google.com/customers/king/?hl=zh-cn2、借力于 BigQuery 和 Holistics,LINE GAMES 通过识别可提升游戏体验的机会,降低了用户的流失率;同时通过从互联网数据中心迁移到云端解决方案,成本降低可达 50%。https://cloud.google.com/customers/line-games/?hl=zh-cn |
金融服务与保险 | Loopring | Loopring 选择用 Google Cloud 的弹性和速度来缩短交易时间,打造更优质的 zkRollup 客户体验。https://cloud.google.com/customers/loopring/?hl=zh-cn |
制造 | Mitsubishi Motors | 将服务收入提升 20%https://cloud.google.com/customers/mitsubishi-motors/?hl=zh-cn |
媒体与娱乐 | 华曦达 | 为了提供易于部署且高性能表现的 OTT 解决方案,华曦达运用 Google Cloud 的计算、视频处理和数据分析能力来缩短部署时间,并提升电视观看体验。https://cloud.google.com/customers/sdmc/?hl=zh-cn |
国内市场主要客户行业:游戏国外市场主要客户行业:科技
1.3.3市场规模
云市场占有规模(数据为2021年的数据):
谷歌云凭借8%的市场份额稳居全球第三。只是,相比亚马逊与微软,谷歌在云服务市场份额相对较低。
3. azure的HPC方案
1.1 方案是什么
azure的HPC方案主要根据当前已存在的解决方案进行构建,首先在Azure 中按要求选择相应的体系结构(即解决方案),再根据具体的负载情况选择配置,最后管理、优化集群。
体系结构页面:浏览 Azure 体系结构 - Azure Architecture Center | Microsoft Learn
当前主要的体系结构有:
● Azure 上的计算机辅助工程服务
● Azure 上的计算流体动力学 (CFD) 模拟
● Azure 上的 3D 视频渲染
单独的HPC服务有:
\1. Azure Batch AI 服务和 Azure Data Science VM:这是一种用于人工智能 (AI) 和数据科学工作负载的云服务,支持高吞吐量的计算和数据存储。
\2. Azure HPC集群:这是一种使用户能够创建和管理高性能计算 (HPC) 集群的解决方案。
\3. Azure Data Box:这是一种用于数据传输和存储的解决方案,支持各种数据类型和大小。它可以通过标准集装箱运输,方便地在云端和本地之间传输数据。
\4. Azure File Share:这是一种用于数据存储的云文件系统,可以支持大规模批处理和 HPC 工作负荷
\5. Azure Redis Cache:这是一种用于高速缓存和数据存储的解决方案,支持高性能、低延迟和高可用性的数据存储
\6. Azure Cosmos DB:这是一种支持文档、表格、图形和键值存储的 NoSQL 数据库服务,可以支持大规模批处理和 HPC 工作负荷。
1.2 方案特性/特征/特色分析
硬件支持广泛:Azure支持广泛的硬件设备,包括CPU、GPU、FPGA等,这使得Azure能够适应各种类型的计算密集型工作负载。
云端资源管理灵活:Azure允许用户通过自助服务方式使用资源,可以根据需要选择不同的虚拟机大小、网络配置和存储方案。此外,用户还可以通过Azure的监控和诊断功能来了解其HPC集群的使用情况。
高性能存储:Azure提供了一系列高性能存储解决方案,包括Azure Blob存储、Azure Data Lake存储、Azure NetApp EF等,这些存储方案可以满足大规模批处理和HPC工作负载的需求。
**高速网络:**Azure提供了一系列高速网络解决方案,包括RDMA网络、高性能计算网络等,这些网络可以提高紧密耦合的并行应用程序的性能。
1.3 方案怎么卖的,报价是多少,主要客户有哪些,典型案例
价格
收费类型如下:
\1. 即用即付:以秒为单位为计算容量付款,无需长期承诺或提前付款。
\2. 长期订阅:承诺在 1 年或 3 年内按小时预付款
\3. 预留实例:在1~3年内按每月预付款
\4. 现成VM:高价买断机器
如下是标准版Av2虚拟机的价格:
实例 | 内核 | RAM | 临时****存储 | 即用即付(现成优先级) | 即用即付(低优先级) | 即用即付(普通优先级) | 1 年节省计划 | 3 年节省计划 |
---|---|---|---|---|---|---|---|---|
A1 v2 | 1 | 2 GiB | 10 GiB | $9.3447/月~70% savings | $6.5700/月 | $31.3900/月 | $21.2211/月~32% savings | $14.1474/月~54% savings |
主要客户
汽车、能源、健康和生命科学、硅、金融和制造业等行业通常使用 Azure HPC 工作负载来运行复杂的模拟。以下公司使用了Azure的HPC方案:
● 鸿海研究院使用Azure HPC GPU加速其AI研究
● AMD公司使用Azure HPC GPU加速其工作流程
● 微软自身使用Azure HPC GPU加速其AI模型训练
● 中国气象局使用Azure的HPC方案进行气象预报