murohi@AIチャンネル

一流のAIエンジニア目指して奮闘中

【Kaggle初心者】タイタニック号で生き残るのは誰?(2日目):score:0.54545

2日目です。今回は実際にPG書いてみます。今回のプランは結果を提出することのみに注力しましょう。

 

■プラン

1:データ読み込み

2:前処理

前回も述べましたが解析を実行するうえでの最低条件は

・すべてが数値になっていること

・欠損値がないこと

ですので使用する変数の対象を数値のみに絞る。文字列データは一切使いません。

そして欠損処理は、すべて中央値を入れます。

 

3:予測アルゴリズム

→今回は決定木を利用。

4:予測し結果提出

→結果を提出する。

 

1:データ読み込み

①jupyter notebookと同じフォルダにtrain.csvとtest.csvを格納します。

→データを読み込むには格納しているパスを指定し、アクセスする必要があります。

②必要なライブラリを格納します。(pandas とnumpy)

→pandas:Pythonにおいて、データ解析を支援する機能を提供するライブラリである。特に、数表および時系列データを操作するためのデータ構造と演算を提供します。

qiita.com

→numpy:Python数値計算のためのライブラリです。

 

qiita.com

③データの読み込みをreadcsv関数を使用し実行します。

④きちんと読めているかhead関数を使用し確認します。

f:id:hiromushoji:20190714164229p:plain

 

 2:前処理

今回は欠損処理を実施。すべて中央値を入れます。文字列データは一切使いません。

①describe関数で欠損値/数値データのみの列を確認します。

②欠損値補完

③欠損値補完できているかの確認を実施。

 

f:id:hiromushoji:20190714192947p:plain

 

欠損値の補完と確認は下記の通り。

f:id:hiromushoji:20190714221708p:plain

 3:予測アルゴリズム

①予測するアルゴリズムに合わせてsckit learnからインポートする

②目的変数と説明変数を振り分ける。(ここで説明変数を定義)

 (Pclass,Age,SibSP,Parch,Fare)

③学習を行い、そして予測。

f:id:hiromushoji:20190714221842p:plain

4:予測し結果提出

予測アルゴリズムは学習時に使ったモデルを利用して実施(すみません。予測は上の画像を参考にしてください。

最後に解析結果を出力するためにCSVファイルを作成して提出!

f:id:hiromushoji:20190714222247p:plain

結果を確認すると正答率54.5%!二択でこれは全然予測できていないとしかいいようがない!

f:id:hiromushoji:20190714222406p:plain

ただ今回の目標はあくまで機械学習を実施して解答すること!ですので出せたことを喜んでください。

 

次回はどうしたら精度があがるかを人のカーネル読みながら順位を上げていきます。

 お楽しみに!

 

<ココナラから授業も承っております>

coconala.com