DataLoaderノード
DataLoaderノードは、ほとんどのパイプラインの開始点です。データファイルを読み込み、下流のノードに処理のために渡します。
| プロパティ | 値 |
|---|---|
| タイプ | ソースノード |
| 入力 | なし |
| 出力 | DataFrame |
| 対応形式 | CSV |
ファイルパス
Section titled “ファイルパス”データファイルへのパス。Browseをクリックしてファイルを選択するか、手動でパスを入力。
/Users/yourname/Desktop/data.csv| 形式 | 拡張子 | 備考 |
|---|---|---|
| CSV | .csv | カンマ区切り値 |
DataLoaderは以下を含むpandas DataFrameを出力:
- ソースファイルの全カラム
- 推論されたデータ型(数値、文字列、日時)
- 元の行順序を維持
データプレビュー
Section titled “データプレビュー”ファイル選択後、ノードにプレビューが表示:
- Rows: 総行数
- Columns: カラム名と型
- Sample: データの最初の5行
基本的な読み込み
Section titled “基本的な読み込み”- DataLoaderノードをキャンバスに追加
- ノードをクリックしてプロパティパネルを開く
- BrowseをクリックしてCSVファイルを選択
- TrainerまたはScriptノードに接続
大きなファイル
Section titled “大きなファイル”100MBを超えるファイルの場合:
- Scriptノードを使用してデータをサンプリングまたはフィルタリング
- 読み込み前に利用可能なメモリを確認
よくある問題
Section titled “よくある問題”「ファイルが見つかりません」
Section titled “「ファイルが見つかりません」”- ファイルパスが正しいか確認
- ファイルが移動または名前変更されていないか確認
- 絶対パス(
/で始まる)を使用
「エンコーディングエラー」
Section titled “「エンコーディングエラー」”- CSVファイルはUTF-8エンコーディングを使用する必要があります
- ファイルが別のエンコーディングを使用している場合は、まず変換:
iconv -f ISO-8859-1 -t UTF-8 input.csv > output.csv「メモリエラー」
Section titled “「メモリエラー」”- ファイルが利用可能なRAMに対して大きすぎる
- データをサンプリングするか、より小さなサブセットを使用
生成されるコード
Section titled “生成されるコード”パイプライン実行時、DataLoaderは以下を生成:
import pandas as pd
# データを読み込みdf = pd.read_csv("/path/to/data.csv")
# 情報を表示print(f"Loaded {len(df)} rows, {len(df.columns)} columns")print(df.dtypes)ベストプラクティス
Section titled “ベストプラクティス”- 説明的なファイル名を使用 —
data.csvではなくcustomer_churn_2024.csv - データファイルを一貫した場所に保管 — パイプライン作成後はファイルを移動しない
- データ品質を確認 — データが正しく読み込まれたかプレビューで確認