越来越多的企业希望借助人工智能 (AI) 以增加收入、提高效率并推动产品创新。尤其需要指出的是,基于深度学习 (DL) 技术的人工智能用例能够带来有效且实用的洞察;其中一些用例可在众多行业推动进步,例如
图像分类
可用于概念分配,例如人脸情感分类
对象检测
可用于自动驾驶技术中的对象定位
图像分割
可用于在患者的核磁共振成像 (MRI) 中勾勒器官轮廓
自然语言处理
可用于文本分析或翻译
推荐系统
可用于线上商店预测客户偏好或推荐更高价值的产品或服务
这些用例仅仅只是开始。随着企业将人工智能融入业务运营,他们将发现应用人工智能的新方法。然而,所有人工智能用例的商业价值都取决于由深度神经网络训练的模型的推理速度。在深度学习模型上支持推理所需的资源规模可能非常庞大,通常需要企业更新硬件以获得其所需的性能和速度。但是,许多客户希望扩展其现有的基础设施,而不是重新购买单一用途的新硬件。您的 IT 部门已经非常熟悉英特尔® 硬件架构,其灵活性能使您的 IT 投资更高效。面向人工智能推理的英特尔® 精选解决方案是“一站式”平台,提供经过预配置、优化和验证的解决方案,无需另外配置加速卡,即可在 CPU 上实现低时延、高吞吐量的推理。
面向人工智能推理的 英特尔® 精选解决方案
面向人工智能推理的英特尔® 精选解决方案能帮助您快速入门,利用基于经验证的英特尔® 架构的解决方案,部署高效的人工智能推理算法,从而加速创新和产品上市。为了加快人工智能应用的推理和上市,面向人工智能推理的英特尔® 精选解决方案结合了多种英特尔及第三方的软硬件技术。
软件选择
面向人工智能推理的英特尔® 精选解决方案使用的软件包括开发人员工具和管理工具,以辅助生产环境中的人工智能推理。
英特尔® 分发版 OpenVINO™ 工具包
英特尔® 分发版开放视觉推理和神经网络优化工具包(即英特尔® 分发版 OpenVINO™ 工具包)是一套开发人员套件,可加速高性能人工智能和深度学习推理的部署。该工具套件可针对多种英特尔® 硬件选项,对各种不同框架训练的模型进行优化,以提供出色性能部署。工具套件中的深度学习工作台 (DL Workbench) 可将模型量化到较低精度。在此过程中,工具套件把使用较大的高精度 32 位浮点数(通常用于训练,会占用较多内存)的模型转换为 8 位整数,以优化内存使用和性能。将浮点数转换为整数能够在保持几乎相同精度的同时,显著提高人工智能推理速度1。该工具套件可以转换和执行在多种框架中构建的模型,包括 TensorFlow、MXNet、PyTorch、Kaldi 和开放神经网络交换 (Open Neural Network Exchange, ONNX) 生态系统所支持的任何框架。此外,用户还可获得经过预训练的公开模型,无需再自行搜寻或训练模型,从而加速基于英特尔® 处理器的开发和图像处理管道优化。
深度学习参考堆栈
面向人工智能推理的英特尔® 精选解决方案配备深度学习参考堆栈 (DLRS)。这是一个集成的高性能开源软件堆栈,已针对英特尔® 至强® 可扩展处理器进行优化,并封装在一个便捷的 Docker 容器中。DLRS 经过预先验证,并且配置完善,已包含所需的库和软件组件,因此有助于降低人工智能在生产环境中与多个软件组件集成所带来的复杂性。该堆栈还包括针对主流深度学习框架 TensorFlow 和 PyTorch 高度调优的容器,以及英特尔® 分发版 OpenVINO™ 工具包。该开源社区版本也有利于确保人工智能开发人员可轻松获得英特尔® 平台的所有特性和功能。
Kubeflow 和 Seldon Core
随着企业和机构不断积累在生产环境中部署推理模型的经验,业界逐步形成了一系列最佳实践的共识,即 “MLOps”,类似于 “DevOps” 软件开发实践。为了帮助团队应用 MLOps,面向人工智能推理的英特尔® 精选解决方案使用 Kubeflow。借助 Kubeflow,团队可在“零停机”的情况下顺利推出模型的新版本。Kubeflow 使用受到支持的模型服务后端(例如 TensorFlow Serving)将经过训练的模型导出到 Kubernetes。模型部署则可使用金丝雀测试或影子部署来实现新旧版本的并行验证。如果发现问题,除了进行跟踪,团队还可以使用模型和数据版本控制来简化根本原因分析。
为了在需求增加时保持快捷响应的服务,面向人工智能推理的英特尔® 精选解决方案提供负载平衡功能,能够跨节点将推理自动分片到可服务对象的可用实例中。多租户支持提供不同的模型,从而提高硬件利用率。最后,为了在运行人工智能推理的服务器和需要人工智能洞察的端点之间加速处理推理请求,面向人工智能推理的英特尔® 精选解决方案可以使用 Seldon Core 来帮助管理推理管道。Kubeflow 还与 Seldon Core 集成,从而在 Kubernetes 上部署深度学习模型,并使用 Kubernetes API 来管理部署在推理管道中的容器。
硬件选择
面向人工智能推理的英特尔® 精选解决方案结合了第二代英特尔® 至强® 可扩展处理器、英特尔® 傲腾™ 固态盘 (SSD)、英特尔® 3D NAND 固态盘和英特尔® 以太网 700 系列,因此您的企业可以在性能经过优化的平台上快速部署生产级人工智能基础设施,为要求严苛的应用和工作负载提供大内存容量。
第二代英特尔® 至强® 可扩展处理器
面向人工智能推理的英特尔® 精选解决方案具有第二代英特尔® 至强® 可扩展处理器的性能和功能。对于“基础”配置,英特尔® 至强® 金牌 6248 处理器在价格、性能和集成技术之间实现了出色的平衡,能够增强人工智能模型上的推理性能与效率。“增强”配置则采用专为实现更快人工智能推理而设计的英特尔® 至强® 铂金 8268 处理器。此外,在任一配置中也可选用更高型号的处理器。第二代英特尔® 至强® 可扩展处理器包含英特尔® 深度学习加速技术。这是一系列加速功能,可通过专门的矢量神经网络指令 (VNNI) 集来提高人工智能推理性能。该指令集使用一条单独指令即可完成之前需要三条单独指令才能进行的深度学习计算。
英特尔® 傲腾™ 技术
英特尔® 傲腾™ 技术填补了存储和内存层之间的重要空白,让数据中心能够更快地获取数据。这项技术颠覆了内存和存储层,能够在各种不同产品和解决方案中提供持久内存、大型内存池、高速缓存和存储。
英特尔® 傲腾™ 固态盘和英特尔® 3D NAND 固态盘
当缓存层运行在具备低时延和高耐用性的高速固态盘上时,人工智能推理更能充分发挥其性能。如缓存层采用高性能固态盘而非主流串行 ATA (SATA) 固态盘,则要求高性能的工作负载将受益匪浅。在英特尔® 精选解决方案中,缓存层采用英特尔® 傲腾™ 固态盘。英特尔® 傲腾™ 固态盘单位成本可提供较高的每秒读写次数 (IOPS),且具备低时延和高耐用性,再加上高达 30 次的每日整盘写入次数 (DWPD),是写入密集型缓存功能的理想选择2。容量层则采用英特尔® 3D NAND 固态盘,可提供出色的读取性能,并兼具数据完整性、性能一致性和驱动可靠性。
25 Gb 以太网
25 Gb 英特尔® 以太网 700 系列网络适配器能够提升面向人工智能推理的英特尔® 精选解决方案的性能。与使用 1 Gb 以太网 (GbE) 适配器和英特尔® 固态盘 DC S4500 相比,使用 25 Gb 以太网适配器配合第二代英特尔® 至强® 铂金处理器和英特尔® 固态盘 DC P4600 可提供高达前者 2.5 倍的性能34。英特尔® 以太网 700 系列提供经过验证的性能;其广泛的互操作性可在数据弹性和服务可靠性方面满足高质量阈值5。所有英特尔® 以太网产品均提供全球售前和售后支持,并在产品周期内提供有限质保。
经过基准测试验证的性能
所有英特尔® 精选解决方案均通过基准测试验证,已满足预先指定的工作负载优化性能的最低功能级别。在数据中心、网络边缘和云中的各类工作负载中,人工智能推理正逐渐成为其重要组成部分,因此英特尔选择使用标准的深度学习基准测试方法,并模拟真实场景进行测量和基准测试。
在标准基准测试中,每秒可处理的图像数量(即吞吐量)是在一个经过预先训练的深度残差神经网络 (ResNet 50 v1) 上测量的。该神经网络与使用合成数据的 TensorFlow、PyTorch 和 OpenVINO™ 工具套件上广泛使用的深度学习用例(如图像分类、定位和检测)密切相关。
为了模拟真实场景,测试启动了多个客户端,以模拟多个请求流。这些客户端将图像从外部客户端系统发送到服务器以进行推理。在服务器端,入站请求由 Istio 进行负载平衡。然后,请求将发送到一个可服务对象的多个实例,该对象包含通过 Seldon Core 运行的一条预处理、预测和后处理步骤管道。预测使用 OpenVINO™ 工具包中 Model Server 经过优化的 DLRS 容器映像完成。在请求通过管道后,推理结果将返回给提出请求的客户端。在此过程中测量出的吞吐量和时延可帮助确保此测试配置足以支持生产环境中的推理规模。
基础配置和增强配置
我们以两种参考配置(“基础配置”和“增强配置”)向您展示面向人工智能推理的英特尔® 精选解决方案。两者均已经过验证,可提供出色性能。这两种配置经过专门的设计和预测试,可提供出众的价值、性能、安全性和用户体验。最终客户也可与系统构建商、系统集成商,或是解决方案和服务提供商合作,根据企业和机构的需求与预算来定制这些配置。
“基础配置”具有出色的性价比,且已针对人工智能推理工作负载进行优化。“增强配置”使用高于“基础配置”的英特尔® 至强® 可扩展处理器型号,并增加一倍内存。表 1 列出了这两种配置的详细信息。
面向人工智能推理的英特尔® 精选解决方案版本 2 的基础配置和增强配置
配置版本 | 面向人工智能推理的英特尔® 精选解决方案 基础配置 | 面向人工智能推理的英特尔® 精选解决方案 增强配置 |
处理器 | 2 x 英特尔® 至强® 金牌 6248 处理器,2.5 GHz,20 核,40 线程(或更高型号) | 2 x Intel® Xeon® Platinum 8268 Processor, 2.90 GHz, 24 Cores, 48 Threads (or higher configuration) |
内存 | 192 GB 或更多 (12 x 16 GB 2,666 MHz DDR4 ECC RDIMM) | 384 GB (12 x 32 GB 2,934 MHz DDR4 ECC RDIMM) |
存储(引导盘) | 1 x 256 GB 英特尔® 固态盘 DC P4101 (M.2 80 mm PCIe 3.0 x 4, 3D2, TLC) 或更高型号 | 1 x 256 GB 英特尔® 固态盘 DC P4101 (M.2 80 mm PCIe 3.0 x 4, 3D2, TLC) 或更高型号 |
存储(缓存) | 1 x 375 GB 英特尔® 傲腾™ 固态盘 DC P4800X,采用英特尔® 内存驱动技术(2.5 英寸 PCIe x 4) | 1 x 375 GB 英特尔® 傲腾™ 固态盘 DC P4800X,采用英特尔® 内存驱动技术(2.5 英寸 PCIe x 4) |
存储(容量) | 1 x 2.0 TB 英特尔® 固态盘 DC P4510(2.5 英寸 PCIe 英特尔® 傲腾™ 介质 3.1 x 4,3D2,TLC)或更高型号 | 1 x 2.0 TB 英特尔® 固态盘 DC P4510(2.5 英寸 PCIe 英特尔® 傲腾™ 介质 3.1 x 4,3D2,TLC)或更高型号 |
数据网络 | 1 x 双端口 25/10/1 GbE 英特尔® 以太网融合网络适配器 XXV710-DA2(英特尔® 以太网 CNA XXV710-DA2)SFP28 直连铜线 (DAC) PCIe x 8,或至少 10 Gb 英特尔® 以太网网络适配器 | 1 x 双端口 25/10/1 GbE 英特尔® 以太网 CNA XXV710-DA2 SFP28 直连铜线 (DAC) PCIe x 8,或至少 10 Gb 英特尔® 以太网网络适配器 |
软件 | [Not specified] | [Not specified] |
CentOS | 7.6.1810 | 7.6.1810 |
内核 | 3.10.0-957.el7.86_64 | 3.10.0-957.el7.86_64 |
英特尔® 分发版 OpenVINO™ 工具包 | 2021.2 | 2021.2 |
OpenVINO™ Model Server | 2019.3 | 2019.3 |
TensorFlow | 2.4.0 | 2.4.0 |
PyTorch | 1.8.0 | 1.8.0 |
MXNet | 1.3.1 | 1.3.1 |
英特尔® 分发版 Python | 2019 Update 1 | 2019 Update 1 |
面向深度神经网络的英特尔® 数学核心函数库(英特尔® MKL-DNN) | 2019.3(由 OpenVINO 默示) | 2019.3(由 OpenVINO 默示) |
深度学习参考堆栈 (DLRS) | v0.5.1 | v0.5.1 |
源到图像 | 1.2.0 | 1.2.0 |
Docker | 18.09 | 18.09 |
Kubernetes | v1.15.1 | v1.15.1 |
Kubeflow | 1.0.1 | 1.0.1 |
Helm | 3.2 | 3.2 |
Seldon Core | 1.0.1 | 1.0.1 |
Ceph | v14.2.7 | v14.2.7 |
Min.io (Rook v1.0) | 1.2.7 | 1.2.7 |
Rook | 1.2.7 | 1.2.7 |
面向人工智能推理的英特尔® 精选解决方案除了具有强大的英特尔® 硬件基础之外,还包含其他可进一步提高性能和可靠性的英特尔® 技术:
- 英特尔® 高级矢量扩展 512(英特尔® AVX-512):一个 512 位指令集,能够提高要求苛刻的工作负载和用例(如人工智能推理)的性能。
- 英特尔® 深度学习加速:第二代英特尔® 至强® 可扩展处理器引入的一系列加速功能,能够显著提高使用先进深度学习框架(如 PyTorch、TensorFlow、MXNet、PaddlePaddle 和 Caffe)构建的推理应用的性能。英特尔® 深度学习加速技术的基础是 VNNI,这是一种专用的指令集,使用一条单独指令即可完成之前需要三条单独指令才能进行的深度学习计算。
- 英特尔® 分发版 OpenVINO™ 工具包:一款免费的软件套件,可帮助开发人员和数据科学家加速人工智能工作负载,同时简化从网络边缘到云端的深度学习推理和部署。
- 英特尔® 数学核心函数库(英特尔® MKL):该函数库包含针对英特尔® 硬件优化过的主流数学运算实施,从而帮助应用充分利用英特尔® AVX-512 指令集。它可以广泛兼容一系列编译器、语言、操作系统、链接和线程模型。
- 面向深度神经网络的英特尔® 数学核心函数库(英特尔® MKL-DNN):一个开源的性能增强型库,用于在英特尔® 硬件上加速深度学习框架。
- 英特尔® 分发版 Python:借助集成的英特尔® 性能库(如英特尔® MKL)加速人工智能相关 Python 库(例如 NumPy、SciPy 和 scikit-learn),由此提高人工智能推理速度。
- 框架优化:英特尔分别就 TensorFlow、MXNet 和飞桨平台与 Google、Apache 和百度开展合作,并积极研发 Caffe 和 PyTorch 相关技术,在数据中心内使用针对英特尔® 至强® 可扩展处理器的软件优化来提高深度学习的性能,并将继续增加来自其他行业领导者的框架。
英特尔® 至强® 可扩展处理器
第二代英特尔® 至强® 可扩展处理器:
- 以经济高效且灵活的方式提供较高的可扩展性,涵盖多云环境到智能边缘
- 建立无缝的性能基础,帮助加速数据带来的变革性影响
- 支持突破性的英特尔® 傲腾™ 持久内存技术
- 提升人工智能性能并帮助整个数据中心实现人工智能就绪
- 提供硬件增强型平台保护和威胁监控
在符合行业标准的硬件上部署优化的高速人工智能推理
英特尔® 精选解决方案提供的工作负载优化配置均针对英特尔® 至强® 可扩展处理器进行过验证,是实现数据中心转型的捷径。选择面向人工智能推理的英特尔® 精选解决方案,企业和机构便能获得经过预先调优和测试,并且经过现实考验能够支持扩展的优化配置。这样 IT 部门就能在生产环境中快速、高效地部署人工智能推理。此外,选择面向人工智能推理的英特尔® 精选解决方案,IT 部门可在他们惯常部署和管理的硬件上实现高速人工智能推理。