こんにちは,shun(@datasciencemore)です!!
ついにR前処理講座の第1回目です!!
できる限りわかりやすく伝えていくので,よろしくお願いいたします.
今回は初回なので,概要として本講座の目的,内容,対象層について説明していきたいと思います.
1.目的
データ分析のお仕事は,大体は以下のフローに従うのでした.(詳細はこちら)
本講座では,これらの中の②処理フェーズの前処理に焦点を絞ってやっていきます!!
![](https://datasciencemore.com/wp-content/uploads/2021/01/km294472737501112216315.png)
前処理は,データサイエンス系のどのような仕事でも大部分を占める重要な部分だからだよ!
データサイエンス系のお仕事は多岐にわたるとこれまで何回かお伝えしてきました.(例えばこちら)
しかし,それらのどのようなお仕事でも前処理は多くのウェイトを占めるのです.
よく前処理が8割だなんて言われています笑
前処理は野球に例えると,ボールを投げることに該当すると思います.
野球は9人で実施し,ピッチャー,キャッチャー,ファーストなどなど,9つのポジションでそれぞれ役割が違いますが,どのポジションでもボールを投げられないと野球ができないですよね.
データサイエンティストもそれと同じです.
以下に挙げるデータサイエンティストの様々なお仕事どれでも前処理が不可欠です.
- アルゴリズム構築
- AIシステム開発
- 可視化ウェブアプリ開発
- 論文執筆
などなど
要は前処理ができないと仕事にならないのです.
そして,以前の記事でも述べたように前処理の分野ではR(というよりtidyverse)がPythonを圧倒しております.
なので,当講座ではRを使用しこの前処理に特化することで,この講座を終えたら
前処理のほぼすべてに対応できること
を目的としています.
2.内容
当講座をより詳細に分類すると以下のようになります.
- 環境構築:Rを使用するために必要ソフトのインストールをし,環境を整えます.
- baseR:baseRの使い方を学びます.
- tidyverse:tidyverseの使い方を学びます.
baseRというのは,いわゆる通常のRのことで,後述するtidyverseと区別するための造語です.
tidyverseというのは,前処理に特化したパッケージのことです.
![](https://datasciencemore.com/wp-content/uploads/2021/07/2101-1024x576.jpg)
3.対象層
当講座の対象層は以下を想定しています.
- AIや機械学習に興味がある方
- PythonのPandasで前処理に挫折した方
- baseRでの前処理に限界を感じた方
- tidyverseは知ってるけど,使い方がよくわからない方
- その他,少しでも前処理を楽にしたい方
※余談ですが,ぼくもPythonのPandasで前処理に挫折した人です笑
pandasのほうが前処理楽だよ!って方は無理にRやtidyverseを使う必要はありません.
結局,Pandasだろうがtidyverseだろうが前処理の手段に過ぎないので,どちらでもいいと思っています笑
好みもありますしね.
ただ,もしpandasしか使用していなくてtidyverseは使ったことないという方はいい機会だと思ってぜひtidyverseを使用してほしいです.
冗談抜きで人生変わります.
※実際,僕は人生変わりました笑
まとめ
今回は,記念すべきR基礎講座の第1回目でした!
やった内容は,以下になります.
- 目的
- 内容
- 対象層
次回からいよいよ環境設定に入っていきます.
これからよろしくお願いしますね!
それでは!!
追記)次回,書きました⇒
-
-
【R前処理講座2】R,Rstudioのインストールと初期設定【環境構築】
こんにちは,shun(@datasciencemore)です!!R基礎講座の第2回目ですね!! 今回はRを使用するための準備として,以下の3つの作業をしていきます. RのインストールRStudioのイ ...
続きを見る