コンテンツにスキップ

DataLoaderノード

DataLoaderノードは、ほとんどのパイプラインの開始点です。データファイルを読み込み、下流のノードに処理のために渡します。

プロパティ
タイプソースノード
入力なし
出力DataFrame
対応形式CSV

データファイルへのパス。Browseをクリックしてファイルを選択するか、手動でパスを入力。

/Users/yourname/Desktop/data.csv
形式拡張子備考
CSV.csvカンマ区切り値

DataLoaderは以下を含むpandas DataFrameを出力:

  • ソースファイルの全カラム
  • 推論されたデータ型(数値、文字列、日時)
  • 元の行順序を維持

ファイル選択後、ノードにプレビューが表示:

  • Rows: 総行数
  • Columns: カラム名と型
  • Sample: データの最初の5行
  1. DataLoaderノードをキャンバスに追加
  2. ノードをクリックしてプロパティパネルを開く
  3. BrowseをクリックしてCSVファイルを選択
  4. TrainerまたはScriptノードに接続

100MBを超えるファイルの場合:

  1. Scriptノードを使用してデータをサンプリングまたはフィルタリング
  2. 読み込み前に利用可能なメモリを確認

「ファイルが見つかりません」

Section titled “「ファイルが見つかりません」”
  • ファイルパスが正しいか確認
  • ファイルが移動または名前変更されていないか確認
  • 絶対パス(/で始まる)を使用
  • CSVファイルはUTF-8エンコーディングを使用する必要があります
  • ファイルが別のエンコーディングを使用している場合は、まず変換:
Terminal window
iconv -f ISO-8859-1 -t UTF-8 input.csv > output.csv
  • ファイルが利用可能なRAMに対して大きすぎる
  • データをサンプリングするか、より小さなサブセットを使用

パイプライン実行時、DataLoaderは以下を生成:

import pandas as pd
# データを読み込み
df = pd.read_csv("/path/to/data.csv")
# 情報を表示
print(f"Loaded {len(df)} rows, {len(df.columns)} columns")
print(df.dtypes)
  1. 説明的なファイル名を使用data.csvではなくcustomer_churn_2024.csv
  2. データファイルを一貫した場所に保管 — パイプライン作成後はファイルを移動しない
  3. データ品質を確認 — データが正しく読み込まれたかプレビューで確認
  • Trainer — 読み込んだデータでモデルを学習
  • Script — カスタムデータ前処理