統計分析
目的変数と説明変数
目的変数:予測したいもの
説明変数:予測のヒントになりそうなもの
予測問題
- 回帰問題:目的変数が数値である時の問題
- 売上の需要予測
- 分類問題:目的変数がカテゴリである時の問題
- クリック数の予測:xクリックあるかではなく、クリックが有るか無いかの場合など、画像の料理名は何か
単回帰モデル
- 1つの目的変数を1つの説明変数でモデル化する方法
- 弁当の売り上げを予測するにあたり、気温…など1つの要素を使う
重回帰モデル
- 1つの目的変数を2つ以上の説明変数を使用してモデル化する方法
- 弁当の売り上げを予測するにあたり、気温・天気・来店数…など複数の要素を使う
天気や曜日など数値ではない要素(質的データ)に対してどう取り扱うか
- 質的データを数値データへ変換する→ダミー変数
- いくつか方法はある
- 1-of-K表現
- 天気の場合、晴・雨・曇などのカラムを用意し、該当するものは1、該当しないものは0を当てはめる
- 1-of-K表現
- pandasのget_dummies関数を使用することで、ダミー関数化することが可能
汎用的な予測モデル
- 未知のデータに対応できる予測モデル
- 学習(Train)データ、検証(Test)データに分割する
- 過学習にならないように注意する
過学習
- 学習のし過ぎによって、それ以外のパターンが出た場合に誤った答えを出力してしまうこと
モデリングの手順
- 説明変数を決めてデータを準備する
モデルの評価
- 何を予測するかによって評価方法が異なる
- 評価方法とは評価関数を使用する
- 評価関数とはモデルの予測精度を評価する数式
- (例)RMSE:誤差を表す指標のため少ないほど良い、MAE:誤差を測る、その他色々
関数
- sklearnのメソッド
- fit:データを学習する
- predict:データを予測する