ぶらりずむ

すきなものだけをあつめました

統計分析

目的変数と説明変数

目的変数:予測したいもの
説明変数:予測のヒントになりそうなもの

予測問題

  • 回帰問題:目的変数が数値である時の問題
    • 売上の需要予測
  • 分類問題:目的変数がカテゴリである時の問題
    • クリック数の予測:xクリックあるかではなく、クリックが有るか無いかの場合など、画像の料理名は何か

単回帰モデル

  • 1つの目的変数を1つの説明変数でモデル化する方法
    • 弁当の売り上げを予測するにあたり、気温…など1つの要素を使う

重回帰モデル

  • 1つの目的変数を2つ以上の説明変数を使用してモデル化する方法
    • 弁当の売り上げを予測するにあたり、気温・天気・来店数…など複数の要素を使う
天気や曜日など数値ではない要素(質的データ)に対してどう取り扱うか
  • 質的データを数値データへ変換する→ダミー変数
  • いくつか方法はある
    • 1-of-K表現
      • 天気の場合、晴・雨・曇などのカラムを用意し、該当するものは1、該当しないものは0を当てはめる
  • pandasのget_dummies関数を使用することで、ダミー関数化することが可能

汎用的な予測モデル

  • 未知のデータに対応できる予測モデル
  • 学習(Train)データ、検証(Test)データに分割する
  • 過学習にならないように注意する
過学習
  • 学習のし過ぎによって、それ以外のパターンが出た場合に誤った答えを出力してしまうこと

モデリングの手順

  • 説明変数を決めてデータを準備する

モデルの評価

  • 何を予測するかによって評価方法が異なる
  • 評価方法とは評価関数を使用する
  • 評価関数とはモデルの予測精度を評価する数式
    • (例)RMSE:誤差を表す指標のため少ないほど良い、MAE:誤差を測る、その他色々

関数

  • sklearnのメソッド
    • fit:データを学習する
    • predict:データを予測する