寒い時期になって起こる、マザーを換えても起こる熱暴走でもなくVRAM不足で起こると思い至った
普段のブラウジングや動画再生はGTX1050で十分だが、StableDeffsionの学習はVRAMを食うのでRTX3080が必要
なら、GTXに画面出力やらせてRTXは演算専用にすればいいんじゃないかという閃きを得てそれを実行したらまあなかなかに大変だった
結論は先
Foo | Bar |
---|---|
CPU | 5800X |
マザー | TUF GAMING X570-PLUS |
メモリー | F4-3200C16Q-128GVK |
GPU 16_1 x16 | Palit RTX3080 GP OC 10G |
GPU 16_2 x4 | GF-GTX1050-2GB/OC/SF |
boot | 970 EVO Plus |
PrimoCache L2 | CSSD-M2B05GPG2VN |
ユーザーフォルダ用HDD | WDC WD30EZRX-00DC0B0 3000.5 GB |
PSU | KRPW-GR1000W/90+ |
チューナー | PT3 |
変なことになってトラブルシュートだけで夜が明けた幸先の悪い2023年
一通り正常に動作するのを確認してから振り返ると基本的な事がやれてなかった
色々弄り回したので実際はどれが原因かはっきりしないが可能性が高いの解決策はこのあたりか
- 最小構成は最小構成
- マニュアルはちゃんと読め
- コンシューマ向けGPUはディスプレイにつなぐことが前提
- GPU2枚はかなり電気を食う
最小構成は最小構成
igpuのないCPUの場合はCPU,マザー、CPUクーラー、メモリー1枚、GPUが最小
高負荷かけないのにCPUクーラーは要る? と思うかもしれないが要る
BIOS設定画面を見るだけでも熱々になって電源が落ちる*1
PrimocacheのL2ドライブはキャッシュデータだけだしあってもBootドライブと認識されずに無視されるから大丈夫だろうと思ってたらそんな事はなかった
初回セットアップ時にいつも通りF2でBIOS画面が立ち上がらない
画面はずっと真っ暗
この時点ではGPUを疑ってたのでPCIex16スロットを入れ替えてみたり、ケーブル端子を換えてみたりしても効果なし
ヒートシンクを取り付けてあったから外すのをめんどくさがってたキャッシュ用NVMeをしたらBIOS画面の表示成功
マニュアルはちゃんと読め
BIOS画面までは確認して今度はBootドライブからWindows11を起動すればコレで終わりだなと思ったらそんなこともなかった
画面が表示されないままや起動してもGPUが認識されてないって現象が起こる
なったりならなかったりが一番厄介
どうしたものかとマニュアルを読むとエラーチェックしてくれるLEDが存在してることを知る
これは正常に起動する場合の光り方
異常が起こる時は橙(メモリー)、赤(CPU)、白(GPU)、緑(BOOT)のチェックに時間がかかってこの速度で点灯が切り替わらずゆっくり順番に光っていった後に白と緑が点きっぱなしになっていた
GPUが何かおかしい何かおかしいのは確定
コンシューマ向けGPUはディスプレイにつなぐことが前提
何がおかしいのかはなかなかわからなかった
端子に異常が有るのかと思って写真を撮ってみても問題はない
BIOSの更新*2、CMOSクリア、チップセットドライバとGPUドライバの更新も効果はない
疲れたんで息抜きで見た関係のない記事でHDMIダミープラグという存在を知ってもしかしてディスプレイの接続が無いGPUは何か問題を引き起こす可能性が浮かんだんで、GTXにHDMI、RTXにDPのケーブルを接続するとすんなり動くし2画面とも表示される
2、3回再起動かけてもBootしないって問題は発生しなくなった
GPU2枚はかなり電気を食う
いい感じに動くようになったと喜んでたら今度はSDで学習回してたら落ちる*3
GPU2枚にHDD5台とかだと電源容量が限界超えた可能性もあると少し前に買っておいた裸族のスカイタワーの空きベイに移住させる
終わり
色々やったのでどれで解決したとはっきり言えない話だった
それでも今はパワーリミットはかけてるがHN学習思いっきり回しながらでも録画は見られる
10GBVRAMをSDフルで使えるとしてもDreamBoothはテキストエンコーダーも学習には足りなかった
そこらへんはもっとチューニングを詰めるか
リムーバブルの引越し先
これにも若干問題があって入居中のHDDの間で録画ファイルを一気に転送しようとするとUSB接続を見失ってPCごと再起動しないとUSBを認識しなくなる問題が発生した
HDDの中を整理する時はSATA接続のリムーバブルに移動してやるということにしよう