スクリプトを作った。Lora用画像ってさ、昔のやつとかいっぱいあると管理大変じゃない? 編集もめんどくさいし

めんどくさいを一気に解決するスクリプトがほしい

作った! 作りかけだけど

github.com

めんど臭いこと

画像の編集とか、タグ付けとか、タグをキレイにするとか 元の画像やリサイズ後の管理やそれに付随するタグやキャプションの管理とか

今の段階でできる

  1. ベースモデルに合わせてリサイズ
  2. 処理の軽量化のためフォーマットを.webpに合わせる
  3. 画面の枠を自動除去
  4. 色域をRGBRGBAに合わせる*1
  5. 元画像をデータベース用ディレクトリにコピーしてメタデータをDBに登録
  6. 処理後画像をベースモデルの解像度のディレクトリに保存メタデータをDBに保存
  7. .text.captionを見つけ出して画像に紐づけてDBに登録
  8. OpenAI API に 画像認識タスクを投げて自動タグ付け
  9. OpenAI バッチ API用のファイル作成とアップロードバッチの実行
  10. APIから戻ってきたタグとキャプションをDBに保存

今はできないが必須の機能

  1. 登録したDBから必要な情報を取り出して学習用データセットを構築する
  2. sd-scriptsのファインチューニング用 jsonを作成

出来たらいいな

  1. Google や claude とかほかの Visionタスク APIに対応
  2. 登録画像のScoring
  3. GUI の実装
  4. タグやキャプションのクリーニング機能の精度を上げる

*1:kohya_ss/sd-scriptsはアルファチャンネルつきにも対応