機械学習を解釈する技術 2章を読んだ

2.1 線形回帰モデルの導入
Y=f(X)+ε
Y=α+βX+ε
パラメータ α、βに関して線形であると仮定
OLSで推定できるよ(BLUE?)
2.2 線形回帰モデルが備える解釈性
回帰係数βは特徴量とモデルの平均的な関係を解釈している
Xに関しては非線形でもいいので、X^2の項があってもOK、そうすれば放物線でフィッティングできる
この場合、解釈的には、Xが1単位増加した時の予測値への影響がXの大きさによって変わるモデル
   Y = β1X1 + β2X1^2 + ε
    ∂Y/∂X1 = β1 + 2*β2X1
交互作用項を入れることもできる
例) Y = β1X1 + β2X1X2 + ε
∂Y/∂X1 = β1 + β2X2 なので、X1が1単位増加した時の影響が別の変数X2の大きさによって変わるモデル

特徴量の重要度
特徴量のスケールを揃えてから係数を見よう
それぞれ標準化して平均ゼロ分散1に。(スケール合わせるだけなら平均引く必要なくない?出費をマイナスにするかプラスにするかで変わる?)
標準偏差だけ変化させた時に予測値に与える影響、が係数になる
インスタンスごとの予測の理由
なぜこの予測値を出したのか、の理由を解釈できる
例)現職年収=前職年収+50* 現職経験年数
 
2.3 住宅価格データセットで実際にやってみた
  RMSE
  R^2
  回帰係数見て、一部屋増えるといくら高くなるかわかる
  散布図プロットした時に目的関数と非線形な関係にありそうだった特徴量の二条項を追加→精度UP
  すでに低所得者が多いエリアなら、これ以上増えてもあまり変わらないが、
   少ないエリアなら、増えた時の影響大きい
  標準化してから十回帰して重要度を比較
  予測の理由もわかる
  RFでやると精度上がる
  RFに線形モデルでできた以下の4つを追加していく
   1 特徴量と予測値の平均的な関係
   2 インスタンスごとの特徴量と予測値の関係
   3 特徴量の重要度
   4 予測の理由
 
 
2.4 線形回帰のメリデメ
 
  メリット
   解釈性が高い、モデルに対する研究が豊富、学習が高速
  デメリット
   予測精度が相対的に低い、複雑なモデルにもできるがそうすると解釈性が低下する