跳转至

台式机升级-硬件篇

随着做种资源原来越多,原本 4T + 2T 的机械硬盘配置不够用了。即使已经做了很多缓解措施,比如将比较大的视频文件转成 av1 编码(4k h264可以达到30G -> 6G的效果),仍然是捉襟见肘。随着最近想要下载一些 VR 游戏资源,硬盘不够用了越来越明显,看来添加硬盘是必须做的了。

同时我也觉得现有的数据管理有点不安全。目前只对一些文档数据做了备份,然而一些虚拟机磁盘镜像,比如主力使用的 windows 虚拟机的磁盘镜像,由于数据量太大,只存了一份。这些都是单点故障点,一旦硬盘坏了,对我的影响是非常大的。

为了解决容量和安全性的问题,决定在台式机上添加一些机械硬盘组 raid10。

为什么是 raid10

有两个原因,一个是 raid 10 重建时更安全。不像 raid 5 重建时存在 URE 问题(指需要读取阵列全部的数据,数据量大,有很大概率遇到 URE 错误导致重建失败),raid 10 只需要读取一个 mirror 中另一块盘的数据,数据量很小。第二是 raid 10 远比其它 raid 灵活。raid 10 两块硬盘为 1 组,只需要保证两块硬盘容量相同即可。而其它 raid 均需要所有盘容量相同,这意味着我得一次性把所有的盘都买来,而一块 14T 的企业盘需要一千多,3-4 块一次购入显然成本太高。另外,raid 10 后续扩容也非常容易,插入即可扩容。而其它 raid 则需要重建整个阵列,非常费时。

这篇文章主要记录下硬件的升级点,以及人生第二次装机总结的一些经验

epilogue

经过 1 周的规划与实践,台式机终于升级完成。现在它真的成了一个 all in one 完全体了

  • AMD 5800x + 96 GB 内存,PVE 系统
  • 拥有 1G, 2.5G 双网卡,搭建了 openwrt 软路由
  • 拥有 zotac GTX 1063, 公版 GTX 1070 双显卡,分别直通给 linux 和 windows 两个虚拟机系统。
  • 插满 8 块机械硬盘,提供 6T + 8T (6 盘 zfs raid 10) 的存储空间

然而也有一些之前没有考虑到的:

  • 没想到换主板、机箱是一件非常费时费力的事情,从下午 3 点搞到了晚上 11 点。遇到问题有:清洗总共 9 把风扇太费时。插电开机没有一次点亮,差点以为主板翻车。进 BIOS 后系统还要修复引导,zfs 作为 root 分区不太熟悉等。
  • 功耗高了 70 w,从 130 w -> 200 w,从每日 3.3 度涨到 4.4 度。购买硬盘时没有考虑到硬盘的功耗,没想到硬盘功耗可以有 1 倍的差距(最低 4.4 w,最高 8.0 w)。当有 8 块硬盘时,总的差距就可以相差 20-30 w。
    • AMD PBO2 的降压功能非常重要,开与不开功耗相差可能 50 w

前后硬件对比

before image.png

later image.png

硬件购买

预算

  • F20 半岛铁盒机箱:190
  • ROG x570-E: 764
    • b500m plus wifi二手出掉:480-500
  • 机械硬盘组 RAID10,原有 2T + 4T,括号里的是要新买的,加粗的是 raid 后容量。成本假设了 1 TB 50 元。
    • 6T:2T + 4T + (2T + 4T):300
    • 2T
      • 7T:4T + (4T + 3T + 3T):500
      • 6T :4T + (4T + 2T + 2T):400
    • 4T
      • 4T:2T + (2T x 3) :300
      • 3T:2T + (2T + 1T x 2) :200

实际开销

  • 机箱:F20 半岛铁盒机箱:190
  • 主板:ROG x570-E: 770 (20运费)
  • 硬盘
    • 3T: 150
      • st3000dm001, date: 15274, 45736h, 836次,
    • 2x3T: 330
      • st3000dm001, DOM: 140CT2016, 10537h, 237次,
      • st3000dm001, DOM: 140CT2016, 12438h, 238次
    • 2x3T: 326
      • st3000dm008, DOM: 09APR2018, 37764h, 5353次
      • st3000dm008, DOM: 09APR2018, 38368h, 7024次
    • 1x2T: 110
      • WD20EJRX, 2018-05-12,

合计

  • 主板机箱:190 + (770 - 480) = 480
  • 硬盘:330 + 436 + 150 = 916
  • 总共:1396

硬盘功耗表

WD20EJRX: Western Digital WD Purple Series (China only) data sheet (tvtdigital.kz)

  • 4.4w, 4.1w, 0.4w

st3000dm008/001

ST4000VX000

华硕ROG x570-E

x570 PCI-E 通道分配

AMD Ryzen 7 5800X3D review (Page 3) (guru3d.com)

  • AMD 5000系 CPU 有24条pcie 4.0通道,16条给显卡,4条给m.2,还有4条给了chipset。CPU 还集成了 4 个 10GB USB3.2
  • x570有16条pcie4.0通道

image.png

!!! note “一些冷门知识"

  x570 芯片组和 5000系CPU中的io die基本一样,都是AMD设计的。不同的是CPU中的采用12nm,而芯片组为14nm。

主板 pcie 扩展槽数量和位置

image.png

通道分配

image.png

x570通道

  • Uplink to CPU: x4
  • PCIe x 16_3: x4
  • 8 SATA: x8
  • m.2_2: x4
  • PCIe x1_2 和 PCIe x 16_3 不能同时使用

搞不懂上面加起来有20个通道了,和说的16不对。另外即使PCIe x1_2 和 PCIe x 16_3 共享带宽可以忽略。那么 PCIe x1_1 是从哪里来的呢?

ROG-Strix-X570-E-Gaming M.2 Lanes question : r/ASUS (reddit.com)

The X570 PCH has x4 lanes to PCI x4 slot, shared with PCIe x1 slot, and x4 lanes to another M.2, and more to the NIC, SATA, more USB. PCH M.2 and the PCIe x4 M.2 will be sharing x4 lanes to the CPU. The x570-E manual shows that the three slots can operate at x16, x8/x8, or x8/x8/x4. I asked ASUS support, and they have said that using the x4 slot will put slots 1&2 into x8/x8 configuration, which is really annoying because there is no reason that I can see that this needs to be forced.

升级的地方总结

  1. 双显卡变友好了
  • 原本两个x16 槽的间距只有2个slot,两个显卡刚好贴在了一起(很极限,有的2槽宽显卡可能就无法插进去了),影响了散热。现在隔了 3 个 slot,就很合适了。
  • 原本的x16 用满了 4.0 x 16,严重浪费,而第二个x16 则只有3.0 x 4 又不太够。现在将 x16 拆成两个 x8 就比较合适。虽然N卡从30系,A卡从5000xt才开始支持4.0,不过 3.0 x 8 对我的 1070 来说还是够用的
  1. SATA 接口从 4 个变为 8 个。对于搭建能够组 RAID 的 NAS 来说够用了
  2. 所有 chipset 连接的 PCIE 都变成了 4.0。比如 第二条 m.2,第三条 x16 slot等
    • 全部都是高速接口,比如背面有 8 个 10GB 的USB3.2 Gen2接口
  3. 自带一个 1G 的网卡,和一个 2.5 G 的网卡 (RTL8125),组软路由变方便了

主板详情

old: E17266_TUF_GAMING_B550M-PLUS_WI-FI_UM_v2_WEB.pdf (asus.com.cn)

E15826_ROG_STRIX_X570-E_GAMING_UM_v2_WEB.pdf (asus.com.cn) ROG Strix X570-E Gaming | Motherboards | ROG Global (asus.com)

249D2FDB-BD4E-4DB4-A000-15237DAC1406 (2000×2000) (asus.com)

image.png

尾部 I/O

image.png

  • 2.5G 以太网:Realtek RTL8125-CG
  • WiFi 6:intel i211AT, bluetooth 5.0
  • 视频
    • hdmi 2.0b: 4K@60
    • dp 1.2: 4K@60
  • 音频

装机经验

准备的工具

  • 螺丝刀
  • 细铁丝,扎带或魔术贴,用于理线
  • m.2导热贴
  • 硅脂
  • sata 线(如果二手盘没有线的话)
  • 便利贴(给硬盘做标记)

升级旧机器清灰

  • 刷子
  • 抹布
  • 吹风机(吹干CPU散热器)

装机经验

清灰经验

  • 风扇直接水洗,刷子刷太慢了
  • 装机时先将CPU散热器拆下来水洗,否则晾干要等挺久

螺丝类型

  • 机箱螺丝:固定主板,电源
  • 风扇螺丝:自攻型,有很大的螺纹
  • 机械硬盘:固定机械硬盘到硬盘笼上
  • m.2螺丝:另外主板可能m.2是2210的,那么需要一个6边形的螺柱。

主板注意

  • ATX, E-ATX主板有9个孔,对应机箱螺柱。如果没找到9个,看看是不是某些挡板挡住了,比如ROG 570-E就需要把两个m.2的盖板取下才能看到。
  • m-ATX主板有8个。

多硬盘标号

p.s 实际是给 sata 线标号。

主板sata口的顺序决定了机器内识别的sda,sdb的编号。接sata数据线时,有意识地将顺序对应硬盘笼的顺序(比如从底向上依次编号1, 2, 3...)。这样坏掉一块盘时根据sdx就可以知道是第几块盘坏了。

另一种方式:可以使用/dev/disk/by-id的方式进行挂载,这样子可以知道坏掉盘的型号和SN码。我的半岛铁盒是能够看到硬盘侧面的,并且,硬盘侧面一般都贴了标签,包含SN号。因此我可以立刻知道是哪块盘。

实际操作中,sata线主板那端不太好插。一般都是先插满主板,再理线和插硬盘。此时已经无法区分sata线的顺序了(除非给每条sata线编号)

CPU和显卡供电注意

  • 主板24pin供电,电源那头可能是拆开的,如18+10P 转24 pin
  • 升级x570后,CPU供电从8pin变为4+8pin。我的电源提供了 2 条 1 拖 2 的 P8 转 (4+4)P 模组线 。理论上我可以只用一条模组线,将 1 拖 2 的两个接口都插上。但是查阅资料发现这样做似乎没有意义。

CPU的8+4Pin接口需不需要插满?没插满会怎么样 – FCPOWERUP极电魔方

1拖2的CPU模组线能不能用? 答: 就是P5、P6这种接法,上面说了,更多的端子是为了分流,是为了同时降低电源模组接口端和主板电源接口的压力。这种脱裤子放屁的接法只能满足强迫症为了插满而插满,没有增加分流的端子数量,增加插头插座对于降低电源模组接口端子的压力并无意义。要接就接2条模组线。

不过5800x的功耗也不需要插满4 + 8pin,单 8 pin 已经很够用了

一条线材承载电流最小也最容易发生意外的部分是金属端子部分,存在于模组接口的两端。如下图金属部分即为所谓的“端子”。一个常见的Molex Mini-Fit Jr.5556 端子能承载的电流约为6~8A。

CPU 4Pin :2组有效回路,可承载16A / 192W
CPU 8Pin :4组有效回路,可承载28A / 336W
CPU 8+4Pin :6组有效回路,可承载36A / 432W
CPU 双8Pin :8组有效回路,可承载48A / 576W

关于显卡的情况

显卡的6+2Pin接口实际上里面有3个Pin是12V,3个Pin是GND,剩余2个Pin是检测Sense,用于显卡检测插头,并不承载电流。所以8Pin的PCIE模组线只有3组有效12V,承载能力216W。平均最大功耗在225W以上即有8+6Pin和双8Pin及以上的显卡,必须要接2条及以上单独的模组线才不会使端子过载熔毁。

image.png

我的安钛克650NE电源 image.png image.png

电源瓦数选择

现在的电脑到底要用多大电源?尝试用最新设备深入测量一下主流电脑平台的功耗情况【翼王】_哔哩哔哩_bilibili

发现机械硬盘启动几秒内的功耗高达20-30w,那我 8 块硬盘就高达 200w。好在开机时,CPU 和显卡没有负载,因此总功耗是够的。 image.png

硬盘功耗要多少及配套电源选择依据_硬盘_什么值得买 (smzdm.com)

机械硬盘功率包含12 v 和 5 v 供电功率之和。 希捷酷鱼ST8000DM004,5400 rpm,标签上写着 +5V 0.55 A, + 12V 0.37 A。因此总功率 7.19 W。 我的希捷酷鱼ST3000DM008,7200 rpm,写着+5V 0.75 A, + 12V 0.75 A。总功率 12.75 W。8 块粗略估计 102 W。

启动时+12V所需电流是2A,那就是24W的功耗。以8盘位NAS插满为例,在机器启动时光硬盘就需要24W*8=192W的功率。 可见硬盘在不同工作状态对电源需求是不同的。启动时只需要+12V的供电,其他诸如空闲、读写、待机、休眠时除+12V以外还需+5V供电,但这些状态所需电流都较启动电流要小好多。

如果你要组4U24盘位的机架服务器的话,就需要选择+5V供电能力超过1.4W24=33.6W的电源,+12V供电能力》24W24=576W的电源。这还只是硬盘部分,算上其他板卡、CPU后对电源供电能力的要求就更高了。

Antec NeoECO NE650C Power Supply Unit User Manual (manuals.plus) image.png

装机顺序

  • 装主板:
    • CPU
      • 拆CPU时,CPU是会自动弹出来的,否则就是拉杆没拨到位。
    • 散热器
      • 压散热器时不需要那么精确。左右晃动下还能起到抹匀效果
      • 有弹簧的螺丝是可以转到底的
    • 内存,m.2固态
  • 装电源:把可能用得到的线全部接上,方便以后接设备,理一下线
  • 将主板固定到机箱上。如果CPU供电线位置很狭窄,建议先插上线再固定到机箱上。类似的还有风扇线。
  • 连接主板CPU供电,机箱面板各种I/O线
  • 根据主板上的风扇位置,考虑如何走线。
  • 完毕,装上显卡和显卡供电,开机

常见调试操作

  • 华硕普通主板上有Q-LED,高端主板有Q-Code
  • 内存出问题时,插上单根试试。(插的位置有讲究,最好看看说明书,一般是A2,即第二或第四槽)

image.png

清CMOS

清CMOS的几种方法[主板]请问Clear CMOS步骤为何? | 官方支持 | ASUS 中国

  • 关闭计算机电源,拔掉电源线。用金属短接CLR RTC两根跳线插针5-10秒
    • 若上述的步骤没有作用,请将主板上的电池移除,并且再次将跳线帽依照上面的步骤来清除 CMOS RTC RAM 的数据。当完成清除的动作后,请再将电池装回主板上。
  • 水银电池短路法:a.先将计算机关机,再将总电源关掉或将电源线拔掉。 b.打开计算机机壳。 c.在主板上,找出电池位置。 d.将主板上的电池拔起,然后将电池座的正/负极短路约1分钟,再将电池装回。

Note

CMOS 还指代了一种特定的电池供电的半导体芯片,用于存储计算机的基本设置和配置信息。这个芯片通常称为 CMOS 存储器或 CMOS RAM。CMOS 存储器通常位于计算机主板上,它包含一个小型的电池,以保持存储的信息在计算机关闭时仍然有效。 1. 基本输入/输出系统(BIOS)设置:例如启动顺序、日期和时间、CPU 和内存配置等。 2. 实时时钟(RTC)设置:用于跟踪日期和时间。 3. 其他系统配置:可能包括硬盘驱动器和其他设备的配置信息。

刷BIOS

[主板] 如何使用USB BIOS FlashBack™ 功能? | 官方支持 | ASUS 中国

华硕主板的FlashBack功能可以在进不了BIOS的情况下,仍然更新主板BIOS。EZ Flash则是在BIOS中,而不用进入操作系统中更新BIOS。[Motherboard/Desktop] 华硕主板如何通过EZ Flash更新BIOS | 官方支持 | ASUS 中国

  • 在使用USB BIOS FlashBack™工具之前,请关机,但电源勿拔除
  • 按住BIOS FlashBack™按钮3秒钟,直到Flashback指示灯闪烁三次后,代表BIOS FlashBack™ 功能已经开始执行。
    • *BIOS档案大小会影响更新时间,预估可在8分钟内完成。执行过程中请勿移除U盘、电源拔除、开机或按下CLR_CMOS按钮,这样会导致更新中断,造成无法开机现象。
  • 等待直到指示灯熄灭,代表主板的BIOS已经更新完成。

最少外接设备测试开机

请按照如下说明移除所有的外接设备并再次确认。

a. 保留接在主板上的CPU, CPU散热风扇和一根内存。 b. 从主板上移除所有的USB设备和外接卡,包括鼠标,键盘,USB随身碟,固态硬盘,外接PCI-E卡等等。 c. 移除连接到主板上的所有线,包括网线,音频线,只留下显示线来确保显示。 d. 然后尝试开启计算机,如果可以正常开机,也许问题来源于被移除的外接设备或线材。逐一尝试插入外接设备或线材,直到你发现哪个外接设备或线材引起这个问题。

遇到的问题

买来的 x570 开机后,显示Q-LED 显示橙灯,对应DRAM。Q-Code LED显示 0x0d

ASUS Rog Strix X570-E code 0d help : r/pcmasterrace (reddit.com)

尝试换单根插拔内存条不行 尝试清除CMOS不行(试了短接跳线,和扣电池10分钟方法) 使用U盘重新刷写BIOS就好了

调整

BIOS参数

PBO2

  • Curve Optimizer: all cores
  • All core curve optimizer sign: negative
  • All core curve optimizer magnitude: 30(适用于5800x,不同cpu不一样)

Memory Frequency: DDR4-2666MHz

Restore AC Power Loss: Power On Power On By PCI-E: Enabled

虚拟化相关

  • SVM Mode: enabled
  • IOMMU: Enabled
  • Above 4G Decoding: Enabled
  • Resize BAR Support: Auto
  • SR-IOV Support: Enabled

TODO

  • 内存开3200会开不了机,试试手动调整电压时序

机箱风扇太吵

  • CPU双塔散热器两个风扇通过2合一线连接在CPU_FAN上(CPU_OPT没有使用)
  • 机箱顶部两个白色风扇和前面板三个风扇装在AIO_PUMP上(主要噪音来源)
  • 尾部风扇接在CHA_FAN1,所以CHA_FAN2(三个)没有使用

CHA_FAN含义

CHA是chassis的缩写,表示机箱。合起来即表示机箱风扇

在主板BIOS中调整风扇曲线即可(简单模式EZ Mode首页就能看到QFAN Control)。

返现原因是插在 AIO_PUMP 上的风扇默认是满速的 image.png

对应 fanctrl

glances 中看到的 nct6798 1-6 对应 hwmon2/pwmX

INTERVAL=10
DEVPATH=hwmon2=devices/platform/nct6775.656 hwmon3=devices/platform/asus-ec-sensors
DEVNAME=hwmon2=nct6798 hwmon3=asusec
FCTEMPS=hwmon2/pwm5=hwmon3/temp2_input hwmon2/pwm1=hwmon3/temp2_input hwmon2/pwm2=hwmon3/temp2_input
#
FCFANS= hwmon2/pwm5=hwmon2/fan5_input hwmon2/pwm1=hwmon2/fan1_input hwmon2/pwm2=hwmon2/fan2_input

#MINTEMP=hwmon2/pwm5=40 hwmon2/pwm1=40 hwmon2/pwm2=40
MINTEMP=hwmon2/pwm5=45 hwmon2/pwm1=45 hwmon2/pwm2=45
#MAXTEMP=hwmon2/pwm5=60 hwmon2/pwm1=60 hwmon2/pwm2=70
MAXTEMP=hwmon2/pwm5=95 hwmon2/pwm1=95 hwmon2/pwm2=95

MINSTART=hwmon2/pwm5=36 hwmon2/pwm1=36 hwmon2/pwm2=36
MINSTOP=hwmon2/pwm5=60 hwmon2/pwm1=60 hwmon2/pwm2=60

#MAXPWM=hwmon2/pwm5=120 hwmon2/pwm1=150 hwmon2/pwm2=255
MAXPWM=hwmon2/pwm5=255 hwmon2/pwm1=255 hwmon2/pwm2=255

chipset温度69摄氏度

chipset 温度基本一直维持在69 度。观察传感器数据,Chipset 风扇貌似一直是一个满转的状态 3149R,不过并没有噪音。

了解到是正常现象 What are normal X570 chipset temperatures? : r/Amd (reddit.com)

chipset风扇

chipset也有风扇,接在4pin PCH_FAN 上 image.png