AI初学者の為の最短勉強法~Kaggleとは?~
今日ご紹介するのは、機械学習初心者の実践の積み方について説明できたらと思います。
データサイエンティストに初心者だけどなりたいと思っている方は多いはず。でも実際に実績なくして転職するのはかなり厳しいです。そういう人達は「実績」が必要になるのですがそんなときに最適なのがkaggle。
ここでは、企業から提供されているデータを用い、世界各国のデータサイエンティストたちが「Competetion(コンペ)」という形で自身が作成したアルゴリズムにより精度
などを競いあいます。このコンペティションで上位に入賞すると転職の際「実績」としてみなされるので、ここで結果を残すのが最優先と考えたほうがいいでしょう。
この話を聞くと本当の超初心者にとっては、はいりずらいじゃん。。。と思うかもしれませんが、Kaggleには「Kernels(カーネル)」と呼ばれる機能があり、他のユーザーが構築した予測モデルのコードや説明を無料でみることができます。人のアルゴリズムを参考にできるのは正直初心者にとっては相当ありがたいです。
このKaggleの中でも特に有名な課題として「Titanic : Machine Learning from Disaster」というものがあり、ほぼ初めて参加する人はここからスタートします。
コンペティションの内容は非常にシンプルで、各乗客が生き残ったかどうかを予測するアルゴリズムを考え、誰が一番精度よく予測できるかを競いあいます。
この「Titanic : Machine Learning from Disaster」が初心者向けと呼ばれる所以は、下記の通りだと私は推察しています。
・テーマがわかりやすい
・欠損値が少ない
・カーネル/その他ブログでチュートリアルがたくさんあり参考になるものが多い
ですので機械学習初心者でPYTHON等プログラミング初心者においても、他の人のカーネル等みながらやればすぐに
できてしまいます。
このブログでもチュートリアルという形でPGや考え方に関してのプロセス載せていきたいなと思います。
というのも他ブログはすでに完成したものを載せていて初心者にはわかりずらいように思えました。ですのでどういう風にして機械学習初心者が学んでいったかの過程も含め記載していきたいと思います。目標としては計7回の提出で上位30%になろうと思います。
初心者の苦労も盛りだくさんで記載したいと思います!
それでは次回をお楽しみに!