【Kaggle初心者】タイタニック号で生き残るのは誰?(初日)
今回のブログでは前回予告した通り、kaggle のタイタニック号で生き残るのは誰?についてやってみたいと思います。
機械学習初心者にとって重要なのはとにかくkaggle 等利用し実践して手を動かすこと。ただプログラムも書けないし機械学習なんてやり方わからないよというかたは動かし方わからないですよね。
なので最初は手初めに人の書いたカーネルやブログを最低5個読むことが重要です。
教科書的なPythonやったり統計勉強したりすると途中でわからなくなりつまづいてしまい、そのあと続かなくなりますのであまりオススメ出来ません。まず一個結果をだすことを目指してください。
5個の選び方のポイントは
■環境構築
■機械学習の手順がわかる
■各フェーズでの考え方
■アルゴリズムの書き方
かなと思います。ここからポイントを記載します。
■環境構築
基本的にはプログラムはRかpythonを使用してください。両方ともデータ解析に役立つ多くのライブラリを持っているので非常に使い勝手がよいです。
データの解析環境はjupyter Notebookがよいかなと思います。
何?プログラミング環境だけじゃだめなん?とか思う方もいらっしゃるかと思いますが素晴らしい点は下記かと。。
・python/Rが実行できる(表を作成/グラフ作成)
・メモがとれる(markdown機能)
・いろいろ書いたのが一つのファイルになる。
・細かくPGを実行していける。
ということで機械学習のような解析を進めながら少しずつ解析実行していくものに対しては非常に親和性が高いかなと思っています。
インストール手順から使い方まで一通り記載されています。
■機械学習の手順
機械学習の手順はほぼみんな同じやり方で進めますのでどれを参考にしてもよいと思います。簡単に書くとこんなかんじ
1:データ読み込み
2:データ分析と前処理
・仮説を立て確認/相関分析 /欠損値確認し補完する。
・カテゴリ変数の置換
・非構造データの処理
3:予測モデル構築(アルゴリズム選定)
・アルゴリズムの選定
・パラメータチューニング
・クロスバリデーション
4:予測
精度の差は基本2データ分析と前処理と3の予測モデルの構築で差がでます。
ただ最初に解析結果出すためであれば2、3を凝りすぎないほうがいいでしょう。
まず結果を出すことを最初に考えて2、3は色々なブログを確認し勉強しましょう。
機械学習を実行する最低条件としては
ー予測モデルに欠損値が存在しないこと
ー全てが数値化されていること
ですのでまず動くことを目指しましょう。非常に簡単に書いてあるサイトは下記でしたので下記を見るのは勉強になると思いますにで読んでいただけたらと思います。
次回は実際にプログラムを書いていこうと思います。