クイックスタート
このクイックスタートでは、Titanicデータセットを使用して以下を行います。
- データの読み込み
- 訓練/テストデータへの分割
- Random Forest分類器の学習
- 精度の評価と結果の確認
- MLOps Desktopがインストール済み
- Python 3.9以上と必要パッケージ:
pip install scikit-learn pandas shap
パイプラインの作成
Section titled “パイプラインの作成”-
MLOps Desktopを開く
アプリを起動すると、空のキャンバスが表示されます。左側にノードパレット、上部にツールバーがあります。
-
DataLoaderノードを追加
左側のComponentsパネルからDataLoaderをキャンバスにドラッグします。
ノードをクリックして選択し、ノード内のBrowseでCSVファイルを選択します。(サンプルデータの作成方法は後述)
-
DataSplitノードを追加
同様にData Splitをドラッグし、DataLoaderの右ハンドルからDataSplitの左ハンドルへ接続します。
設定:
- Test Split: 20%(デフォルト)
- Random State: 42
- Stratify: 有効にし、カラムを
Survivedに設定
-
Trainerノードを追加
Trainerをドラッグし、DataSplitから接続します。
設定:
- Mode: Train(デフォルト)
- Model Type: Random Forest Classifier
- Target Column:
Survived
-
Evaluatorノードを追加
Evaluatorをドラッグし、Trainerから接続します。
設定は不要です。モデルタイプは自動で検出されます。
-
パイプラインを実行
ツールバーのRunをクリックします。
Logsタブに進行状況が表示されます。
[DataLoader] Loaded titanic.csv: 891 rows, 12 columns[DataSplit] Split: 712 train, 179 test (stratified by Survived)[Trainer] Training RandomForestClassifier...[Trainer] Training complete[Evaluator] Accuracy: 0.821, F1: 0.756 -
結果を確認
Metricsタブをクリックすると以下が表示されます。
- Accuracy、Precision、Recall、F1の棒グラフ
- 混同行列のヒートマップ
Explainボタンをクリックすると以下が生成されます。
- 特徴量重要度チャート
- SHAPサマリープロット
- 部分依存プロット
サンプルデータの作成
Section titled “サンプルデータの作成”CSVファイルがない場合は、Pythonで作成できます。
import pandas as pdfrom sklearn.datasets import fetch_openml
titanic = fetch_openml('titanic', version=1, as_frame=True)df = titanic.framedf.to_csv("titanic.csv", index=False)print(f"titanic.csv を保存しました({len(df)}行)")またはIrisデータセットを使用する場合:
from sklearn.datasets import load_irisimport pandas as pd
iris = load_iris(as_frame=True)df = iris.framedf.to_csv("iris.csv", index=False)print("iris.csv を保存しました")Irisの場合は、TrainerのTarget Columnをtargetに設定してください。
Metricsタブ
Section titled “Metricsタブ”| メトリクス | 意味 |
|---|---|
| Accuracy | 正解した予測の割合 |
| Precision | 陽性と予測したうち、実際に陽性だった割合 |
| Recall | 実際の陽性のうち、正しく検出できた割合 |
| F1 Score | PrecisionとRecallの調和平均 |
予測 死亡 生存実際 死亡 98 12 生存 21 48対角線上の値が正解、それ以外が誤分類です。
Explainセクション
Section titled “Explainセクション”Explainをクリックすると、モデルの予測理由を確認できます。
- Feature Importance — 各特徴量の重要度
- SHAP Summary — 各特徴量が予測に与える影響
- Partial Dependence — 特徴量の変化が予測に与える影響
その他のタブ
Section titled “その他のタブ”| タブ | 内容 |
|---|---|
| Logs | 実行ログとエラー |
| Data Profile | データセットの統計 |
| Metrics | モデルの性能チャート |
| Runs | 実行履歴 |
| Models | モデルレジストリ |
| Trials | ハイパーパラメータ探索結果 |
| Serving | HTTPサーバー |
パイプラインの保存
Section titled “パイプラインの保存”ツールバーのSaveをクリックし、名前を入力します(例:「titanic-classifier」)。
Loadドロップダウンからいつでも読み込み可能です。
次のステップ
Section titled “次のステップ”トラブルシューティング:
- 「Pythonが見つかりません」 — Pythonセットアップを参照
- 「sklearn が見つかりません」 —
pip install scikit-learnを実行 - 「カラムが見つかりません」 — カラム名が正確に一致しているか確認(大文字小文字を区別)
- 実行が停止した — Logsタブでエラーメッセージを確認