ヤマカサのプログラミング勉強日記

プログラミングに関する日記とどうでもよい雑記からなるブログです。

Python機械学習プログラミング 達人データサイエンティストによる理論と実践 part. 6

Python機械学習プログラミング 達人データサイエンティストによる理論と実践

第3章

ランダムフォレスト,k-最近近傍について学びました.

パラメトリックモデルとノンパラメトリックモデルの使い分けはどうすれば良いんでしょうか.統計の検定だと母集団に仮定があるかどうかで使い分けると見たことがあります.

3章まで読んだんですが,例題が花の分類だけで物足りなかったです.

第4章

データ前処理について

欠損データ

現実のデータには欠損値がでる可能性があるので,欠損データそのものを取り除くか,補完する必要があります.補完の仕方では,平均値で補完したりします.

カテゴリデータ

名義特徴量のような順序に意味のないデータを分類するときは,one-hot エンコーディングという手法を用います.