DS講座 tidymodels講座

【tidymodels講座2】{tidyverse}探索的データ分析

こんにちは,shun(@datasciencemore)です!!

いよいよ本格的にtidymodelsについて学習していきますが,まずその前にtidyverseについて,簡単に復習しておきましょう!

tidymodelsを使用するときもtidyverseを頻繁に使用する必要があるからです.

特に予測モデリングSTEP1:探索的データ分析をするときには,主に使用するのはtidymodelsではなく,tidyverseです!

0.{tidyverse}ってなに??

tidyverseってなんですか??

tidyverseは,前処理に特化したパッケージ群のことだよ!!
tidyverseを使用することで,baseRでは難しかった処理がすんなりとできるようになるよ!!

このブログの読者さんにはもう説明不要だと思いますが,念のためtidyverseについて簡単に説明します.

tidyverseは,前処理に特化したパッケージ群のことです.

tidyverseで使用する主なパッケージは,

  1. tibble
  2. dplyr
  3. tidyr
  4. ggplot2
  5. stringr
  6. readr
  7. forcats
  8. purrr

の8つのコアパッケージに時間処理のパッケージ{lubiridate}を加えた計9個です.

tidyverseのパッケージは,これら9個のパッケージ以外にもあります.
しかし,これら9個のパッケージは利用頻度がめちゃくちゃ高いので,まずこれらの使い方から覚えましょう!!

これらのパッケージの使い方については,こちらで詳細に説明しているのでぜひご一読ください.

また,Udemyでtidyverseの使用方法に関する動画講座を公開しているので,動画で学習したい方はこちらをご利用ください.

これら9個のパッケージの中で探索的データ分析において特に重要なパッケージが{dplyr}と{ggplot2}です!!

よって,次項では{dplyr}と{ggplot2}についてそれぞれみていきましょう!!

1.{dplyr}

{dplyr}はデータフレーム処理に関するパッケージです.
そして,{dplyr}の中で特によく使用する関数は

①select
②mutate
③rowwise

です.
これらの使い方がわからないと予測モデリングができないといっても過言ではないので,自信ない方は復習することをオススメします!

{dplyr}は,STEP1:探索的データ分析で使用するというよりも,予測モデリング全体(STEP1~STEP6)を通して使用します.
なので頻繁にわからないところが出てくると思いますが,その都度,復習して徐々に理解を深めていきましょう!


以下に「Rとtidyverseによる前処理講座」のリンクを張っておいたので必要に応じてご利用ください.

①select

②mutate

③rowwise

2.{ggplot2}

{ggplot2}は可視化に関するパッケージです.

こちらについても「Rとtidyverseによる前処理講座」のリンクを張っておいたので必要に応じてご利用ください.

3.探索的データ分析

前項で説明したtidyverse(特に{dplyr}と{ggplot2})を使用して探索的データ分析をしていきます.
内容としては以下のとおり

1.仮説立案
 ①項目確認
 ②基本統計量算出
 ③可視化
 ④仮説作成
2.合否基準立案
 ①ベースライン算出
 ②合否基準作成

具体的なやり方については別記事にて解説しますね!

まとめ

今回は探索的データ分析に必要なパッケージであるtidyverseについてやってきました.

そして,探索的データ分析をするうえでtidyverseの中でも特に重要なパッケージは{dplyr}と{ggplot2}です.

この2つのパッケージの基本的な使い方は必ず知っている必要がありますので,自信ない方は復習してくださいね!

それでは,次回からいよいよtidymodelsの使い方を学習していきます.

次回はデータ分割のためのパッケージ,{rsample}についてやっていく予定です.

それでは,お疲れ様でした!!

-DS講座, tidymodels講座