ランダムフォレスト

公開日:2025/05/30

ランダムフォレスト

複数の決定木を組み合わせたアンサンブル学習手法。各決定木の予測を統合することで、単一の決定木よりも高い精度と安定性を実現する実用的なアルゴリズム。

アルゴリズムの特徴:
・バギング:訓練データのブートストラップサンプリング
・特徴量のランダム選択:各分岐で一部特徴量のみ使用
・多数決(分類)または平均(回帰)による最終予測
・アウトオブバッグ(OOB)エラーによる内部検証

主要パラメータ:
・n_estimators:決定木の数(多いほど安定、計算コスト増)
・max_depth:各木の最大深さ(Noneは制限なし)
・min_samples_split:分岐に必要な最小サンプル数
・min_samples_leaf:葉ノードの最小サンプル数
・max_features:各分岐で考慮する特徴量数
・criterion:分割基準('gini', 'entropy', 'mse', 'mae')

クラス別実装:
・RandomForestClassifier:分類問題
・RandomForestRegressor:回帰問題
・用途に応じた適切なクラス選択が重要

特徴量重要度の活用:
・feature_importances_:各特徴量の重要度を数値化
・特徴選択やビジネス洞察の獲得に活用
・パーミュテーション重要度との比較検討

実務での活用例:
・顧客離反予測
・信用リスク評価
・売上予測・需要予測
・医療診断支援
・製造業での品質予測

メリット:
・高い予測精度と安定性
・特徴量重要度の出力
・欠損値への耐性
・パラメータ調整が比較的容易
・過学習しにくい