ブラックアウトを改善しようとして変なことをすると変な事が起こる。GPU2枚挿し(SLIではない)

寒い時期になって起こる、マザーを換えても起こる熱暴走でもなくVRAM不足で起こると思い至った

普段のブラウジングや動画再生はGTX1050で十分だが、StableDeffsionの学習はVRAMを食うのでRTX3080が必要

なら、GTXに画面出力やらせてRTXは演算専用にすればいいんじゃないかという閃きを得てそれを実行したらまあなかなかに大変だった

nextaltair.hatenablog.com

 

結論は先

Foo Bar
CPU 5800X
マザー TUF GAMING X570-PLUS
メモリー F4-3200C16Q-128GVK
GPU 16_1 x16 Palit RTX3080 GP OC 10G
GPU 16_2 x4 GF-GTX1050-2GB/OC/SF
boot 970 EVO Plus
PrimoCache L2 CSSD-M2B05GPG2VN
ユーザーフォルダ用HDD WDC WD30EZRX-00DC0B0 3000.5 GB
PSU KRPW-GR1000W/90+
チューナー PT3

変なことになってトラブルシュートだけで夜が明けた幸先の悪い2023年

一通り正常に動作するのを確認してから振り返ると基本的な事がやれてなかった

色々弄り回したので実際はどれが原因かはっきりしないが可能性が高いの解決策はこのあたりか

  1. 最小構成は最小構成
  2. マニュアルはちゃんと読め
  3. コンシューマ向けGPUはディスプレイにつなぐことが前提
  4. GPU2枚はかなり電気を食う

 

 

最小構成は最小構成

igpuのないCPUの場合はCPU,マザー、CPUクーラー、メモリー1枚、GPUが最小

高負荷かけないのにCPUクーラーは要る? と思うかもしれないが要る

BIOS設定画面を見るだけでも熱々になって電源が落ちる*1

 

PrimocacheのL2ドライブはキャッシュデータだけだしあってもBootドライブと認識されずに無視されるから大丈夫だろうと思ってたらそんな事はなかった

 

 

初回セットアップ時にいつも通りF2でBIOS画面が立ち上がらない

画面はずっと真っ暗

この時点ではGPUを疑ってたのでPCIex16スロットを入れ替えてみたり、ケーブル端子を換えてみたりしても効果なし

 

ヒートシンクを取り付けてあったから外すのをめんどくさがってたキャッシュ用NVMeをしたらBIOS画面の表示成功

 

 

マニュアルはちゃんと読め

BIOS画面までは確認して今度はBootドライブからWindows11を起動すればコレで終わりだなと思ったらそんなこともなかった

画面が表示されないままや起動してもGPUが認識されてないって現象が起こる

なったりならなかったりが一番厄介

 

どうしたものかとマニュアルを読むとエラーチェックしてくれるLEDが存在してることを知る

https://imgur.com/Um1vmQ8

これは正常に起動する場合の光り方

異常が起こる時は橙(メモリー)、赤(CPU)、白(GPU)、緑(BOOT)のチェックに時間がかかってこの速度で点灯が切り替わらずゆっくり順番に光っていった後に白と緑が点きっぱなしになっていた

 

GPUが何かおかしい何かおかしいのは確定

 

コンシューマ向けGPUはディスプレイにつなぐことが前提

何がおかしいのかはなかなかわからなかった

端子に異常が有るのかと思って写真を撮ってみても問題はない

BIOSの更新*2、CMOSクリア、チップセットドライバとGPUドライバの更新も効果はない

疲れたんで息抜きで見た関係のない記事でHDMIダミープラグという存在を知ってもしかしてディスプレイの接続が無いGPUは何か問題を引き起こす可能性が浮かんだんで、GTXにHDMI、RTXにDPのケーブルを接続するとすんなり動くし2画面とも表示される

2、3回再起動かけてもBootしないって問題は発生しなくなった





 

GPU2枚はかなり電気を食う

いい感じに動くようになったと喜んでたら今度はSDで学習回してたら落ちる*3

GPU2枚にHDD5台とかだと電源容量が限界超えた可能性もあると少し前に買っておいた裸族のスカイタワーの空きベイに移住させる

 

 

終わり

色々やったのでどれで解決したとはっきり言えない話だった

それでも今はパワーリミットはかけてるがHN学習思いっきり回しながらでも録画は見られる

10GBVRAMをSDフルで使えるとしてもDreamBoothはテキストエンコーダーも学習には足りなかった

そこらへんはもっとチューニングを詰めるか

 

 

 

 

 

 

リムーバブルの引越し先

これにも若干問題があって入居中のHDDの間で録画ファイルを一気に転送しようとするとUSB接続を見失ってPCごと再起動しないとUSBを認識しなくなる問題が発生した

HDDの中を整理する時はSATA接続のリムーバブルに移動してやるということにしよう

*1:Zen3発売前に買っておいたトマホークはそのせいでBIOS更新中に落ちて使えなくなった

*2:不安定な時にやるとかなり危険

*3:学習回してたら落ちたからGPUの接続が不安定になったが先だったかな?