NEXTAltair's diary

スクリプトを作った｡Lora用画像ってさ､昔のやつとかいっぱいあると管理大変じゃない? 編集もめんどくさいし

Python StableDiffusion

めんどくさいを一気に解決するスクリプトがほしい

作った! 作りかけだけど

めんど臭いこと

画像の編集とか､タグ付けとか､タグをキレイにするとか元の画像やリサイズ後の管理やそれに付随するタグやキャプションの管理とか

今の段階でできる

ベースモデルに合わせてリサイズ
処理の軽量化のためフォーマットを.webpに合わせる
画面の枠を自動除去
色域をRGBかRGBAに合わせる*1
元画像をデータベース用ディレクトリにコピーしてメタデータをDBに登録
処理後画像をベースモデルの解像度のディレクトリに保存メタデータをDBに保存
.textと.captionを見つけ出して画像に紐づけてDBに登録
OpenAI API に画像認識タスクを投げて自動タグ付け
OpenAI バッチ API用のファイル作成とアップロードバッチの実行
APIから戻ってきたタグとキャプションをDBに保存

今はできないが必須の機能

登録したDBから必要な情報を取り出して学習用データセットを構築する
sd-scriptsのファインチューニング用 jsonを作成

出来たらいいな

Google や claude とかほかの Visionタスク APIに対応
登録画像のScoring
GUI の実装
タグやキャプションのクリーニング機能の精度を上げる

Vision Transformer入門 Computer Vision Library

Vision Transformer入門 Computer Vision Library

作者:山本晋太郎,徳永匡臣,箕浦大晃,邱玥（QIU YUE）,品川政太朗
技術評論社

*1:kohya_ss/sd-scriptsはアルファチャンネルつきにも対応