こんにちは,shun(@datasciencemore)です!!
今回から機械学習講座をやっていきます!
初回の今回は,概要として本講座の目的,内容,対象層,特徴について説明していきたいと思います.
1.目的
DS講座第1弾では,Rとtidyverseを利用した前処理について学びました.
これで前処理については8割程度できるようになったと思います.
さて前処理が終わったら,それで終わりでしょうか?
多くの場合はそんなことないですよね笑
苦労して前処理をしたのには何かしらの目的があったからですよね.
以前の記事で説明したようにデータ分析プロジェクトのフローはこんな感じで,①要件定義,②PoC,③実装の各フェーズを行ったり来たりしながら分析を進めていきます.
前処理をした後によくする作業としてモデリングがあります.
モデリングとは,超ざっくり説明するとデータから何かしらの値やカテゴリを予測することです.
正確に言うとモデリングとは,
データがなんで生成されたかを考察すること!!
です.
予測が主ですが,それ以外にもデータがどんな確率分布に従っているとか,どのようなルールでデータを分類できるのだろうとか,予測以外にも様々な分野があります.
当講座では予測モデリングに焦点を当てます.
なんで予測モデリングをするかというと,ビジネスにおいてとても役立つからです.
ビジネスというのは,とにかく不明確なことが多いです.
例えば
- この部品の状態は正常か異常か??
- 今週の来客数はどれくらいだろうか??
- この製品はいつ頃出荷できるのだろうか??
これらの問題に答えてくれる技術こそが予測モデリングなのです!!
これらの問題の答えがわかればビジネスがすごく楽になりますよね!
例えば,
今週の来客数は500人くらい
⇒いつもより2割程度多いから,より多く商品を仕入れよう!!
みたいな感じで,予測から次のアクションを容易にすることができます.
もしモデリングを使用しないと
今週の来客数は全然わからない...
⇒どう対策すればいいかわからない...
ってことになっちゃいます.
こんな感じで予測モデリングはビジネスに大きな価値をもたらします.
ということで,当講座では
予測モデリングを適切に実施するために,予測モデリングの流れをしっかり理解する!!
ことを目的とします.
予測モデリングを適切に実施するためにはコーディングをする必要がありますが,それについては別講座で実施予定です.
当講座では,コーディングを的確に実施するためにも先立って予測モデリングの流れをしっかり理解することを重視したいと思います.
また,予測モデリングをするうえで役に立つのが機械学習と統計学の知識です.
当講座は機械学習をメインに解説していきます.
なぜなら予測モデリングの主目的である予測は,機械学習(教師あり学習)と非常に相性がいいからです.
統計学の知識も重要なのでそれは別講座で解説しますね!!
一般的に機械学習が予測重視,統計学が解釈重視とよく言われています.
この考え方は間違ってはいないのですが,適切ではないと個人的に思います.
機械学習と統計学の違いは宗教のようなものなので,そんなに深く考えなくていいと思います.
当ブログでも便宜上,機械学習と統計学を分類しましたが,両者は密接につながっています.
なので,できたら両方学習しましょう!!
2.内容
当講座は主に機械学習(教師あり学習)の予測モデリングについて説明いたします.
当講座をより詳細に分類すると以下のようになります.
- STEP1:探索的データ分析
- STEP2:学習ルール選定
- STEP3:アルゴリズム選定
- STEP4:特徴量エンジニアリング
- STEP5:ハイパーパラメータチューニング
- STEP6:モデル検証
このほかにも一般的な機械学習や機械学習の常識なども簡単に触れさせていただきます.
なお,当講座は機械学習の中でも教師あり学習に焦点を当てていきます.
なぜかというと,他の機械学習の分野と比較して教師あり学習が一番使用される頻度が高いからです.
(もちろん業界にもよると思いますが,教師あり学習はどの業界でも使用でき,かつ,応用範囲も広いです.)
3.対象層
- データサイエンスに興味がある方
- 機械学習に興味がある方
- 機械学習(教師あり学習)で何をやっているか知りたい方
- ビジネスにおいてデータを使用して,なんらかの予測がしたい方
4.特徴
当講座は,機械学習をできるだけブラックボックス化しないことを重視します!
機械学習というと一般的に中身はあまり重要視されず,アウトプットに焦点が行きがちな傾向があります.
もちろん,アウトプットが求めているものであればそれでもいいのですが,実際は求めているアウトプットがなかなか出てきません.
求めているアウトプットは,試行錯誤を繰り返してはじめて得られるのです.
その試行錯誤を繰り返す際,機械学習の気持ちがわからないと闇雲に効果が薄いことを繰り返すことに陥りがちです.
なので,当講座は
機械学習の気持ちを理解できるようになる!!
ことを目指したいと思います!!
機械学習の気持ちを理解できればどのようにすればアウトプットが改善できるか,なんとなくわかってくるからです!
大丈夫かなぁ...
大丈夫!!
機械学習って言うとすごく難しく感じちゃうけど,やっていることは人間の学習過程とほとんど同じなんだからさ!!
そうです,機械学習といっても結局は我々人間の学習過程度とほとんど同じです.
当然ですが,テストでいい点を取りたいと思ったらそのテストの過去問や問題集を用意して解法を頭に詰め込みますよね?
機械学習も同様に,何か予測したいことがあれば,その過去事例を用意して,コンピュータに問いと答えの組み合わせを教えてあげるのです.
なのでアウトプットを改善していく過程も人間にそっくりです.
人間も成績に伸び悩んだら,問題集や先生を変えるの同様,機械学習もデータやアルゴリズムを変更するのです.
そんな感じで試行錯誤を繰り返すことで欲しかったアウトプットが手に入れられるのですね!!
当講座の特徴は
機械学習で何をしているのかを可能な限りイメージできるようにしたこと!!
です!!
なので,機械学習を学んだことない人から機械学習の上級者まで新たな気づきがあると思います.
よかったらぜひ覗いてみてくださいね!!
まとめ
今回は機械学習講座の初回で,以下のことをやりました.
- 目的
- 内容
- 対象層
- 特徴
機械学習は専門的で難しそうですが,実はそんなことありません.
ぜひ学習してみて,ビジネスに活かしてみてくださいね!!
それでは,お疲れ様でした!!