ホールドアウト法

公開日:2025/05/30

ホールドアウト法

データセットを学習用と評価用の2つに固定的に分割してモデルの性能を評価する最も基本的で直感的な評価手法。シンプルで理解しやすく、大規模データセットでの実用性が高い。

基本手順:
1. 全データを一定比率で分割
2. 訓練データでモデル学習
3. テストデータで性能評価
4. 必要に応じて検証データでハイパーパラメータ調整

一般的な分割比率:
・70:30, 80:20, 60:20:20, 90:10

分割時の考慮事項:
・ランダム分割
・層化分割
・時系列順
・グループ分離・大規模データセットの性能評価
・プロトタイピング段階
・本番環境での性能推定
・計算資源制約下での評価
・リアルタイム推論システム
・デバッグ・開発段階
・ベースライン性能確認
・単発の性能測定
・商用システムの事前評価・scikit-learn train_test_split
・pandas sample
・numpy random
・stratify parameter
・random_state設定
・sklearn.model_selection
・TensorFlow Dataset split・複数回の異なる分割で評価
・分割前のデータシャッフル
・適切な乱数シード設定
・分割データの分布確認
・大規模データでの活用
・交差検証との使い分け
・評価の分散を考慮