【Kaggle初心者】タイタニック号で生き残るのは誰？（2日目）:score:0.54545

2日目です。今回は実際にＰＧ書いてみます。今回のプランは結果を提出することのみに注力しましょう。

■プラン

１：データ読み込み

２：前処理

前回も述べましたが解析を実行するうえでの最低条件は

・すべてが数値になっていること

・欠損値がないこと

ですので使用する変数の対象を数値のみに絞る。文字列データは一切使いません。

そして欠損処理は、すべて中央値を入れます。

3：予測アルゴリズム

→今回は決定木を利用。

４：予測し結果提出

→結果を提出する。

１：データ読み込み

①jupyter notebookと同じフォルダにtrain.csvとtest.csvを格納します。

→データを読み込むには格納しているパスを指定し、アクセスする必要があります。

②必要なライブラリを格納します。（pandas とnumpy)

→pandas:Pythonにおいて、データ解析を支援する機能を提供するライブラリである。特に、数表および時系列データを操作するためのデータ構造と演算を提供します。

qiita.com

→numpy:Pythonの数値計算のためのライブラリです。

qiita.com

③データの読み込みをreadcsv関数を使用し実行します。

④きちんと読めているかhead関数を使用し確認します。

f:id:hiromushoji:20190714164229p:plain

２：前処理

今回は欠損処理を実施。すべて中央値を入れます。文字列データは一切使いません。

①describe関数で欠損値/数値データのみの列を確認します。

②欠損値補完

③欠損値補完できているかの確認を実施。

f:id:hiromushoji:20190714192947p:plain

欠損値の補完と確認は下記の通り。

f:id:hiromushoji:20190714221708p:plain

3：予測アルゴリズム

①予測するアルゴリズムに合わせてsckit learnからインポートする

②目的変数と説明変数を振り分ける。（ここで説明変数を定義）

　（Ｐclass,Age,SibSP,Parch,Fare)

③学習を行い、そして予測。

f:id:hiromushoji:20190714221842p:plain

４：予測し結果提出

予測アルゴリズムは学習時に使ったモデルを利用して実施（すみません。予測は上の画像を参考にしてください。

最後に解析結果を出力するためにＣＳＶファイルを作成して提出！

f:id:hiromushoji:20190714222247p:plain

結果を確認すると正答率54.5%!二択でこれは全然予測できていないとしかいいようがない！

f:id:hiromushoji:20190714222406p:plain

ただ今回の目標はあくまで機械学習を実施して解答すること！ですので出せたことを喜んでください。

次回はどうしたら精度があがるかを人のカーネル読みながら順位を上げていきます。

お楽しみに！

<ココナラから授業も承っております>

coconala.com

murohi@AIチャンネル

一流のAIエンジニア目指して奮闘中

【Kaggle初心者】タイタニック号で生き残るのは誰？（2日目）:score:0.54545

■プラン

１：データ読み込み

２：前処理

3：予測アルゴリズム

４：予測し結果提出