【Kaggle初心者】タイタニック号で生き残るのは誰?(3日目):score:0.76076
どーも。3日目になります。今回から前回単純に結果をだしたものですがどうしたら精度があがるかを考えていきましょう。
■今回のプラン
前回は結果を出すことにのみ注力した結果精度が54%とほぼ予想できていないレベルでしたのでちょびっとタイタニックで起きた事件のことを想像しながら、前回使用しなかった文字データも活用していきたいなと思います。
1:データ読み込み
2:前処理
★性別:男を0、女を0とする*男女差には生死の差がある。
★出港:Sを0、Cを1、Qを2 9割近くがSからの出港なので欠損値はSで補完
*出港先は町の豊かさを示すものなので使用する価値がある。
★年齢:とりあえずそのままの値を利用。欠損値は中央値を入れる
*子供やお年寄りは救われる傾向がある。
★Family_size:家族の大きさを定義:SibSp + Parch + 1を家族の人数とする。
*家族のサイズによって逃げれた逃げれないはありそう
3:予測アルゴリズム
→今回は決定木からランダムフォレストを利用
4:予測し結果提出
→結果を提出する。
1~2まで(データ読み込み&前処理)
(確認)
3:予測アルゴリズム
4:予測し結果提出
結果は76%!急に精度が上がってきましたね!
まだ下記の情報を使っていないし欠損値の補完手法、
(次回以降)
まあ考えるといっても人のカーネルやサイト見ながらやりましょう!
*名前についている敬称から年齢が推測できそうなのでそれを利用するのは次回
★名前:名前の中から下記情報を取得し、下記6個に分ける
"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5 空白は0
欠損値は(mr master miss misc mrsごとに中央値を代入する)
★Cabin:先頭のアルファベットのみ抽出。空白はUと定義