【Kaggle初心者】タイタニック号で生き残るのは誰?(2日目):score:0.54545
2日目です。今回は実際にPG書いてみます。今回のプランは結果を提出することのみに注力しましょう。
■プラン
1:データ読み込み
2:前処理
前回も述べましたが解析を実行するうえでの最低条件は
・すべてが数値になっていること
・欠損値がないこと
ですので使用する変数の対象を数値のみに絞る。文字列データは一切使いません。
そして欠損処理は、すべて中央値を入れます。
3:予測アルゴリズム
→今回は決定木を利用。
4:予測し結果提出
→結果を提出する。
1:データ読み込み
①jupyter notebookと同じフォルダにtrain.csvとtest.csvを格納します。
→データを読み込むには格納しているパスを指定し、アクセスする必要があります。
②必要なライブラリを格納します。(pandas とnumpy)
→pandas:Pythonにおいて、データ解析を支援する機能を提供するライブラリである。特に、数表および時系列データを操作するためのデータ構造と演算を提供します。
→numpy:Pythonの数値計算のためのライブラリです。
③データの読み込みをreadcsv関数を使用し実行します。
④きちんと読めているかhead関数を使用し確認します。
2:前処理
今回は欠損処理を実施。すべて中央値を入れます。文字列データは一切使いません。
①describe関数で欠損値/数値データのみの列を確認します。
②欠損値補完
③欠損値補完できているかの確認を実施。
欠損値の補完と確認は下記の通り。
3:予測アルゴリズム
①予測するアルゴリズムに合わせてsckit learnからインポートする
②目的変数と説明変数を振り分ける。(ここで説明変数を定義)
(Pclass,Age,SibSP,Parch,Fare)
③学習を行い、そして予測。
4:予測し結果提出
予測アルゴリズムは学習時に使ったモデルを利用して実施(すみません。予測は上の画像を参考にしてください。
最後に解析結果を出力するためにCSVファイルを作成して提出!
結果を確認すると正答率54.5%!二択でこれは全然予測できていないとしかいいようがない!
ただ今回の目標はあくまで機械学習を実施して解答すること!ですので出せたことを喜んでください。
次回はどうしたら精度があがるかを人のカーネル読みながら順位を上げていきます。
お楽しみに!
<ココナラから授業も承っております>