murohi@AIチャンネル

一流のAIエンジニア目指して奮闘中

【Kaggle初心者】タイタニック号で生き残るのは誰?(4日目):score:0.76076

 どーも。ジョージです。それでは本日も精度を上げるべく取り掛かりましょう。

 データ分析しながら方針決めができたらと思います。

 

4日目にで初めてデータを見るのかよ!と思う方もいらっしゃるかと思います。確かに遅いです。

 

でもデータ分析しなくても 精度76%出るんです!ランキングとしても平均くらいまで来てます!ですのでこういうのをパッケージにして、だれでも簡単にAIと呼ばれるものをつくるというのは、そこまで精度を求めない領域でたくさんでてくるのではと思います。

 

1:データ読み込み

2:前処理

★性別:男を0、女を0とする*男女差には生死の差がある。

★出港:Sを0、Cを1、Qを2 9割近くがSからの出港なので欠損値はSで補完

*出港先は町の豊かさを示すものなので使用する価値がある。

★名前:名前の中から下記情報を取得し、下記6個に分ける

     "Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5 空白は0

★年齢:欠損値は名前で6個に振り分けたのでそこの区分の中央値を年齢として代入する。

*子供やお年寄りは救われる傾向がある。

→年齢も単純に年よりも世代(区分で区切ったほうが精度が出そうなのでグラフを作成し分け方を決める)

★Family_size:家族の大きさを定義:SibSp + Parch + 1を家族の人数とする。

*家族のサイズによって逃げれた逃げれないはありそう

※一人!当特融の結果がでるかもしれないので確認

★Cabin:先頭のアルファベットのみ抽出。空白はUと定義

*おそらく階級や逃げやすさによって変化があるはず。

先頭以外の文字の使い方は

 

■分析

2:前処理

★性別:結論→男女差は明らかに生存率にかかわる。

 f:id:hiromushoji:20190815131708p:plain

★出港:Sを0、Cを1、Qを2 9割近くがSからの出港なので欠損値はSで補完

結論:出港先は町の豊かさを示すものなので使用する価値がある。

f:id:hiromushoji:20190815135202p:plain

★名前:名前の中から下記情報を取得し、下記5個に分ける

     "Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5 空白は0

 →敬称だけ抜き出す。これだと大体平均年齢の欠損値を埋めるのに利用できそうなのでそれに利用する。

f:id:hiromushoji:20190815150359p:plain

 

★年齢:欠損値は名前で6個に振り分けたのでそこの区分の中央値を年齢として代入する。結論:若ければ助けてもらえる(*ただし8歳より若いに限る)

 

f:id:hiromushoji:20190815150548p:plain

 

★Family_size:家族の大きさを定義:SibSp + Parch + 1を家族の人数とする。

結論:家族が誰もいない場合や多すぎる場合は助からないことが多い。

f:id:hiromushoji:20190815151349p:plain

★Cabin:先頭のアルファベットのみ抽出。空白はNと定義

 

 

ここまでが結果のグラフ化でした。次回は結果を出します。