こんにちは,shun(@datasciencemore)です!!
最近とてもよく聞かれる質問があります.
それは,
データサイエンスプロジェクトってどんなお仕事なの??
って質問です.
わかります,データサイエンスプロジェクトって何やってるかよくわからないし,なんか怪しいですよね笑
ってことで,今回はデータサイエンスプロジェクトの業務内容についてまとめていきたいと思います.
一口にデータサイエンスプロジェクトといってもその業務内容は様々です.
例を挙げると
- AIを用いてシステムを実装する.
- 予測モデルを構築する.
- データを可視化し,データの意味を明らかにする.
などなど...
挙げればきりがないですが,多くの仕事は以下のようなフローになります.
それでは,詳細にみていきましょう.
①要件定義
まず①要件定義です.
ここでは,プロジェクトで何をするのかを具体的にします.
以下の2つの作業を交互に実施し,要件を定義します.
- ヒアリング
お客様に何を実現したいかをヒアリングします.
時にはお客様が実現したいことと実際にできることに齟齬がある場合もあるので,ただヒアリングするだけでなく,お客様とプロジェクト内容について認識を合わせていきます. - 課題設計
ヒアリングや②PoC(次節参照)の結果を考慮し,以下を明確にしていきます.- 目的(何のためにこのプロジェクトを立ち上げるのか??)
- KPI(何を達成したら,このプロジェクトが成功なのか?)
- 見積(どれくらいの工数がかかるか?)
課題設計が終了したら,②PoCに進みます.
それでは,この①要件定義を主体的にやる人のことをなんていうのでしょうか??
正解は,ぼくもわかりません笑
ここ,すごく重要な仕事なのですが,世間一般では職種名が決まっていません.
AIベンチャーではコンサル出身の方が多いですね.
この部分はプロジェクト成功のキーとなる部分なので,めちゃくちゃ重要です!
なので,将来的には何かしらの名前がつくと思います.(DXエンジニアとかかな笑)
②PoC
次に②PoCです.
PoCは,Proof of Conceptの略で,①要件定義で設計した課題に対し,実現可能か,目的の効果が得られるかなどを確認する工程です.
以下の3つの作業をPDCAを回しながら,ぐるぐるぐるぐるやっていきます.
- 前処理:データを解析しやすいように加工する.
- モデリング:データがどのように生成されているか,仮説を立てる.
- 可視化:データをグラフにし,傾向を確認する.
とにかくこれら3つの繰り返しです.
これら3つを何回も何回も繰り返すことにより,①要件定義で設計した課題が実現可能かを検討します.
検討の結果,実現可能性が低い場合は,①要件定義に戻り,課題を再設計します.
この②PoCを主体的にやる人のことをデータサイエンティストと呼ぶことが多いです.
実現可能性が高い場合は③実装に進みます.
③実装
最後が③実装です.
多くの場合,②PoCで得た結果をお客様が利用できるよう,システム化します.
もちろん,最終成果物がシステムではなくグラフや予測モデルのときもあります.
③実装を主体的にやる人のことをAIエンジニアと呼ぶことが多いです.
③実装が終了しても完全に終わりではなく,②PoCをさらに深堀することで,改善を繰り返す場合もあります.
まとめ
データサイエンスプロジェクトの業務内容についてやってきました.
データサイエンスプロジェクトは多岐にわたりますが,基本フローは以下のとおりです.
①要件定義:以下の2つの作業を繰り返し,プロジェクトで何をするのかを具体的にする.
- ヒアリング
お客様に何を実現したいかをヒアリングする.
時にはお客様が実現したいことと実際にできることに齟齬がある場合もあるので,ただヒアリングするだけでなく,お客様とプロジェクト内容について認識を合わせていく. - 課題設計
ヒアリングや②PoC(次節参照)の結果を考慮し,以下を明確にする.- 目的(何のためにこのプロジェクトを立ち上げるのか??)
- KPI(何を達成したら,このプロジェクトが成功なのか?)
- 見積(どれくらいの工数がかかるか?)
②PoC:以下の3つの作業を繰り返し,①要件定義で設計した課題の実現可能性を検討する.
- 前処理:データを解析しやすいように加工する.
- モデリング:データがどのように生成されているか,仮説を立てる.
- 可視化:データをグラフにし,傾向を確認する.
③実装:②PoCで得た結果をお客様が利用できるよう,システム化する.
なんとなくイメージできたでしょうか?
これを見て,少しでもデータサイエンスプロジェクトのイメージが明瞭になったのであればうれしいです!!
今回もお疲れ様でした!!