7000美元,搭建4块2080Ti的深度学习工作站

原创 2019-04-18 08:42  阅读 133 views 次

如何以高性价比的方式搭建深度学习工作站?如何选择合适的部件?……这些问题有点难。来自 MIT 的 Curtis Northcutt 继「6200 美元搭建 3-GPU 工作站」之后,又推出了「7000 美元搭建 4-GPU 深度学习工作站」的教程。

在之前的博客中,来自 MIT 的 Curtis Northcutt 分享了构建专业质量的深度学习工作站和购买零件的所有细节,搭建该工作站共花费了 6200 美元,几乎是 Lambda 和 Bizon 等公司的一半(Lambda 同等工作站需要 12,500 美元)。该博客在 Reddit 上疯传,在接下来的几周里,Lambda 将其 4-GPU 的工作站价格降到了 12000 美元。

这对部署深度学习的人来说是个好事,但你如果觉得 12000 美元还是太贵了,可以看这里。Curtis Northcutt 只用了 7000 美元(约合 46953 人民币)配置了 4 块 2080Ti GPU 的深度学习工作站:

在之前的文章中,我说过:「没有完美的配置。」但如果能够以最低的价格实现最好的配置呢?会是怎样的呢?这就是我下面将要讲的。关于 4-GPU 深度学习工作站的部件说明、基准和其它选项,参见《仅需 6200 美元,高性价比构建 3 块 2080Ti 的强大工作站》。

本文将准确列出以最少的花费搭建当前最先进的 4-GPU 深度学习工作站时需要购买的部件。由于很多人对上一篇博客的反馈是选项太多,因此在本文中我只列出了每个部件的最佳选项。我搭建了三个多 GPU 工作站,本文展示的这个工作站是其中性能和可靠性最好的一个,没有出现过热保护,成本也最低。

我搭建两台这样的工作站花费了 14000 美元,每台 7000 美元。下面将介绍我购买的具体部件。

4-GPU 工作站前视图

需要购买哪些部件?

我所有的部件都是通过 NeweggBusiness 在网上购买的,但其它供应商(比如亚马逊)也 OK。如果你附近有一家当地的 MicroCenter 商店,那你可以去那里买到更便宜的 CPU。如果不需要,就不要缴税(如非盈利组织或教育机构)。NeweggBusiness 和 Amazon 都接受免税文件。

以下是我购买的每个部件:

4 块 RTX 2080 TI GPU(2000 美元以下运行最快的 GPU)Gigabyte RTX 2080 Ti Turbo 11GB,1280 美元

这两种 2-PCI 插槽的涡轮风扇式 RTX 2080 TI GPU 也可以:1. ASUS GeForce RTX 2080 Ti 11G Turbo Edition GD,1209 美元2. ZOTAC Gaming GeForce RTX 2080 Ti Blower 11GB,1299 美元

Rosewill Hercules 1600W PSU(最便宜的 1600 瓦电源)Rosewill HERCULES 1600W Gold PSU,209 美元

1TB m.2 SSD 固态硬盘(用于深度学习中的超快速数据加载)HP EX920 M.2 1TB PCIe NVMe NAND SSD,150 美元

20 线程 CPU(选择英特尔而不是 AMD,是因为前者的单线程速度更快)英特尔 Core i9-9820X Skylake X 10-Core 3.3Ghz,850 美元

X299 主板(这款主板完全支持 4 个 GPU)ASUS WS X299 SAGE LGA 2066 英特尔 X299,492.26 美元

机箱(大风量可帮助 GPU 散热)海盗船 Carbide 系列 Air 540 ATX Case,115 美元

3TB 硬盘(用于存储不经常使用的数据和模型)希捷 BarraCuda ST3000DM008 3TB 7200 RPM,75 美元128GB 内存8 块海盗船 Vengeance 16GB DRAM,640 美元

CPU 散热器(不会阻塞机箱气流)海盗船 Hydro 系列 H100i PRO 低噪音版,130 美元

图左:价值 7000 美元的 4-GPU 深度学习工作站;图右:之前博客中介绍的用 6200 美元搭建的 3-GPU 工作站。

与 Lambda 4-GPU 工作站的对比

用 7000 美元搭建的这个 4-GPU 工作站类似于 Lambda 价值 11250 美元的 4-GPU 工作站。唯一的区别是 Lambda 使用 12 核 CPU 而非 10 核 CPU,Lambda 有一个价值 50 美元的热插拔驱动器托架。

操作系统及性能

我使用的操作系统是 Ubuntu Server 18.04 LTS,使用 CUDA 10.1 和 TensorFlow(用 conda 安装)、PyTorch(用 conda 安装)。一个多月来,我在完全利用 4 个 GPU 的情况下在这些机器上训练了多次,没有出现任何问题或者过热保护现象。

本文地址:http://www.chenyafei.cn/?p=778
关注我们:请关注一下我们的微信公众号:扫描二维码娅言菲语の博客的公众号,公众号:aiboke112
版权声明:本文为原创文章,版权归 cj13888 所有,欢迎分享本文,转载请保留出处!
NEXT:已经是最新一篇了

发表评论


表情