Loading...
作者 Betsy Chernoff 发表于 2024 年 1 月 31 日,来自 Amazon Machine Learning,人工智慧,计算,容器,网路与内容传递,储存。
基于生成式人工智慧AI模型的建设和训练,以及准确预测和提供有价值的输出,皆需要大量的基础设施。生成大型语言模型LLMs和基础模型FMs所需的高品质合成文本、图片及其他媒体输出,涉及到了相当庞大的数据集。一般来说,模型所训练的数据集含有约十亿个变量即参数。而处理这样的海量数据想像一下,数PB的数据需要数百个硬体加速器这些加速器嵌入于专门设计的机器学习ML硅或 GPU 中。
有效运行 LLM 的过程中,对于数据的获取速度,必须与其 GPU/ML 硅的处理速度相匹配,否则将面临高昂的成本和低效的情境。生成式 AI 工作负载的基础设施选择会影响成本、性能、可持续性目标及易用性。组织成功运行 FMs 的训练和推理需要:
具性价比的加速计算包括最新的 GPU 和专门的 ML 硅以驱动大型生成 AI 工作负载。高性能、低延迟的云存储,以保持加速器高效利用。支持生成式 AI 工作负载基础设施的最前沿技术、网络和系统。利用云服务构建,实现生成式 AI 应用、工具和基础设施之间的无缝集成。Amazon Elastic Compute Cloud Amazon EC2的加速计算产品线,提供多种加速器选择来驱动生成式 AI 工作负载。
为保持加速器的高效利用,必须持续获取数据源进行处理。AWS 通过 Amazon FSx for Lustre 和 Amazon S3 提供快速数据传输可以达到数百 GB/TB 的数据吞吐量。
加速计算实例搭配AWS的各种技术,比如 AWS Nitro 系统、高达 3200 Gbps 的 Elastic Fabric AdapterEFA网络,以及 Amazon EC2 UltraClusters 提供的超级计算能力,使生成式 AI 工作负载的基础设施达到最优性能。
结合 Amazon SageMaker HyperPod 和 Amazon Elastic Kubernetes Service 等其他管理服务,这些实例为开发者提供了行业内最佳的生成式 AI 应用开发和部署平台。
免费海外加速器破解版本篇文章将重点介绍围绕生成式 AI 的 Amazon EC2 实例、存储和网络的相关公告。
训练大型 FMs 需要大量计算资源,因为每个项目都不相同,因此需要一系列广泛的选择,让各类型的组织能够更加快速迭代,训练更多模型,并提高准确性。在 2023 年,AWS 计算类别推出了多个支持生成式 AI 训练和推理工作负载的产品。
其中一个新产品是 Amazon EC2 Trn1n 实例,它的网络带宽比 Trn1 实例翻倍,达到 1600 Gbps Elastic Fabric Adapter (EFA)。这一增加的带宽使得对于训练网络密集型生成 AI 模型如 LLMs 和 mixture of experts (MoE)的训练时间比 Trn1 减少 20。
Watashiha 提供了一款创新的互动 AI 聊天机器人服务 “OGIRI AI”,利用 LLMs 来添加幽默感,使顾客获得更具相关性和对话感的体验。Watashiha 的首席技术官 Yohei Kobashi 说:“这要求我们频繁地对这些模型进行预训练和微调。我们在 EC2 Trn132xlarge 实例上预训练了一个基于 GPT 的日语模型,利用张量和数据并行性进行训练。训练在 28 天内完成,并比之前的 GPU 基础设施减少了 33 的成本。随著我们的模型迅速变得更加复杂,我们期待著 Trn1n 实例,它的网络带宽是 Trn1 的两倍,能加快大型模型的训练。”
AWS 正在不断推进其生成式 AI 工作负载的基础设施,并最近宣布 Trainium2 加速器 也即将推出。这款加速器设计上可提供比第一代 Trainium 晶片快 4 倍的训练速度,并且能够在最多 100000 颗晶片的 EC2 UltraClusters 中部署,使得训练 FMs 和 LLMs 的时间大幅缩短,同时提升能效达 2 倍。
AWS 也在不断地在 GPU 基础设施上持续投资。目前,NVIDIA 已在 AWS 部署了 200 万个 GPU,跨越 Ampere 和 Grace Hopper GPU 两代,这相当于 3 zetaflops 或 3000 exascale 超级计算机。最近,AWS 宣布了 Amazon EC2 P5 实例,这些实例是针对敏感时间的大规模训练工作负载而设计,使用 NVIDIA CUDA 或 CuDNN,并利用 NVIDIA H100 Tensor Core GPU 提供加速。这些实例有助于提升解决方案的速度,从而加快至解决方案的速度最多可达 4 倍,同时将训练 ML 模型的成本降低多达 40。P5 实例帮助你更快地迭代解决方案,更迅速地进入市场。
AWS 还推出了 Amazon EC2 Capacity Blocks for ML,提供对具有需求的 GPU 计算容量进行轻松和可预测的访问。这是主要云供应商首个消费模型,允许用户预留 GPU 用于未来使用最多可以在 EC2 UltraClusters 中部署 500 个 GPU,以运行短时 ML 工作负载。

AWS 同时简化训练过程,推出了 Amazon SageMaker HyperPod,该功能自动完成高规模容错分布式训练所需的更多流程例如,配置分布式训练库、在数千个加速器之间扩展训练工作负载、检测和修复故障实例,加快训练速度最多可达 40。例如,客户 Perplexity AI 利用 SageMaker HyperPod 进行弹性扩展,跨越数百个 GPU 除了减少停机时间。
深度学习推理是 AWS 持续创新云基础设施的另一个例子,包括低成本、高性能的 Amazon EC2 Inf2 实例,这些实例由 AWS Inferentia2 提供支持,专为在全球范围内运行高性能深度学习推理应用而设计,并且是 Amazon EC2 上部署最新生成式 AI 创新中成本最低且能效最高的选择。
此外,还有 Amazon SageMaker,帮助你 将多个模型部署 到同一实例中,共享计算资源将推理成本降低50。SageMaker 也会主动监控正在处理推理请求的实例,并根据可用实例智能路由请求,实现平均低 20 的推理延迟。
AWS 在生成式 AI 工作负载的工具上进行了大量投资。针对 AWS ML 硅,AWS 专注于 AWS Neuron,这是一个软件开发工具包SDK,帮助客户从 Trainium 和 Inferentia 中获得最大性能。Neuron 支持多种公共可用模型,包括 Meta 的 Llama 2、Databricks 的 MPT、mistralai 的 Mistral 以及 Stability AI 的 Stable Diffusion,还有 Hugging Face 上100个最受欢迎的模型中的93个。它适用于 ML 框架,例如 PyTorch 和 TensorFlow,对于 JAX 的支持也将于今年早些时候推出。它旨在使 AWS 客户能够只需几行代码即可轻松地将现有的模型训练和推理流程切换到 Trainium 和 Inferentia。
AWS 在加速训练和推理流程方面的另一个途径是提升存储性能这对于最常见的 ML 任务例如将训练数据加载到大型 GPU/加速器集群中至关重要,同时也对检查点和服务推理请求有很大的影响。AWS 宣布了几项改进,以加速存储请求的速度并降低计算资源的闲置时间这使得你可以更快、更高效地运行生成式 AI 工作负载。
为了获取更准确的预测,生成式 AI 工作负载正在使用越来越大的数据集,这需要高性能的存储服务以处理大量数据。
Amazon S3 Express One Zone 是一种专为高性能和低延迟的对象存储设计的全新存储类,特别适用于组织最频繁访问的数据,非常适合训练和推理等请求密集型操作。Amazon S3 Express One Zone 是可用的最低延迟的云对象存储,数据访问速度最高可达 10 倍快,请求成本比 Amazon S3 Standard 低 50。
AWS 还持续优化 ML 框架的数据访问速度。不久前,Amazon S3 Connector for PyTorch 上线,能够使训练数据加载速度比现有的 PyTorch 连接器快40。尽管大多数客户可以使用 Mountpoint for Amazon S3 或 Amazon S3 Connector for PyTorch 来满足其训练和推理需求,但一些客户还在建立和管理他们自己的自定义数据加载器。为了实现 Amazon S3 与 Amazon EC2 Trn1、P4d 和 P5 实例之间的最快数据传输速度,AWS 最近宣布在 AWS 命令行界面 (AWS CLI) 和 Python SDK 中 自动加速 Amazon S3 数据传输。现在,训练任务可以以最多 3 倍的速度从 Amazon S3 下载训练数据,来自 Scenario 的客户正在看到惊人的成果,未写一行代码即提升了 5 倍的模型下载吞吐量。
为了满足训练生成式 AI 工作负载所要求的变化性能需求,Amazon FSx for Lustre 宣布 按需扩展吞吐量。这对于模型训练特别有用,因为它使您能够更灵活、更低成本地调整文件系统的吞吐量。
去年,AWS 推出了 EC2 UltraCluster 20,这是一种更平坦、更宽的网络结构,专为 P5 实例和未来的 ML 加速器进行优化。这允许我们将延迟减少 16,支持多达 20000 个 GPU,整体带宽提高了10倍。在传统的集群架构中,随著集群物理规模变大,延迟通常也会随之增加。然而,在 UltraCluster 20 中,AWS 增加了集群的大小,同时减少了延迟,这是一个令人振奋的进展。
AWS 也在不断帮助您提高网络的效率。近期推出了 Amazon EC2 Instance Topology API,它让你可以查看实例之间的接近情况,从而能够更好地选择作业的放置。优化的作业调度意味著分布工作负载的处理速度更快。将进行频繁数据交换的作业移动到集群的同一物理位置可以消除数据路径中的多重跳跃。随著模型推动边界,这类软件创新在硬件性能最大限度发挥的过程中至关重要。
除了 Amazon QAWS 提供的生成式 AI 助手,AWS 还推出了 Amazon Q 网络故障排查预览版。您可以请 Amazon Q 帮助您排查由于当前 AWS 账户中的网络错误配置导致的网络连接问题。这项功能与 Amazon VPC Reachability Analyzer 配合使用,检查连接并检查网络配置以识别潜在问题。通过 Amazon Q 网络故障排查,您可以用日常对话的方式询问网络问题,例如,您可以问“ 为什么我无法 SSH 登录到我的服务器 ”,或“ 为什么我的网站无法访问 ”。
AWS 正在为客户提供更多的基础设施选择,包括性价比高、以可持续性为导向和易于使用的选项。去年,AWS 在这一领域的能力更加巩固了我们致力于满