[機械学習] とりあえずモデルは決定木にした方がいいと思う理由

 タスクによりますが、さっと分類とかしてそこからしっかりチューニングなどしたい時、とりあえず決定木系のモデルを使った方がいいと私は思います。

 とりあえず決定木系のモデルを使った方が良い3つの理由をまとめました。

理由1:特徴量の重要度がわかる


 特徴量の重要度である程度特徴量抽出の良し悪しがわかり、チューニングに役立つと思います。

 例えば重要度0の変数が多いなら意味のない変数が多いことがわかるなど。

理由2:推論過程を可視化できる、説明しやすい


 決定木を画像化してノードを覗けばどんな分類しているかがわかります。

 ただランダムフォレストなどアンサンブルになると木が多いのでわかりにくくなる。

 アンサンブルであっても、ニューラルネットワークなどに比べれば、推論根拠の説明がしやすいのではないだろうか。

理由3:決定木系はそれなりに精度が良い


 Kaggleのテーブルデータのコンペでは決定木アルゴリズムのLightGBMが一番多く、XGBoost、ランダムフォレストなどもよく使われているようです。また、ニューラルネットワーク より学習時間が早いのも良い点だと思います。

参考→ https://www.slideshare.net/mlm_kansai/kaggle-138546659

 最初に選んだモデルが最終的に変わらなければ当然工数が減ります。

コメントを残す

メールアドレスが公開されることはありません。