Pythonではじめる機械学習【2章(2.1-2.2)】
Chapter | 日付 |
---|---|
2-1 | 4/5 |
2-2 | 4/6 |
2.1 クラス分類と回帰
・教師あり機械学習は以下の2つに大別できる
・クラス分類(classification)
・2クラス分類(binary classification) →メールのスパム判定
・多クラス分類(multiclass classification) →1章のアイリスの品種判定
・回帰(regression) →連続地の予測。学歴、年齢、住所から年収を予測
回帰は「量」を予測する。
2つの差は出力に対して連続性があるかどうか。
2.2 汎化、過剰適合、適合不足
・汎化(generalize)
モデルが未見のデータに対して正確に予測出来ている場合、訓練セットを用いてテストセットに対して汎化できている、という。
訓練、テストセットに共通した性質を持っていても汎化できていない場合がある
→モデルが複雑すぎる場合、訓練データに大してはいくらでも正確な予測が出来るようになってしまう!(具体例は参考書で)
・過剰適合(overfitting)
持っている情報の量に比べて過度に複雑なモデルを作ってしまうこと。
訓練セットの小尾kの特徴にモデルを手企業しすぎると発生する。汎化できないモデルになるので注意!
・適合不足(underfitting)
逆に単純すぎるモデルを作ってしまうこと。
適切なモデルの複雑さであるスイートスポットを見つけよう!
・モデルの複雑さは、訓練データセットのバリエーションに左右される。
・バリエーション豊富だと過剰適合を起こさずに複雑なモデルを作成出来る。
・単純にデータポイントが増えればバリエーションも増えるので、より複雑なモデルが出来るが似ているものを集めてもダメ。
・教師あり学習では、より多くのデータを用い、適度に複雑なモデルを用いると驚くほどにうまくいく場合があるので、場合によってはモデルをどうにかするよか、データを増やすことが大切だったりもする。