Python前処理講座

【pandas】groupby:グルーピング【データフレーム処理】

こんにちは,shun(@datasciencemore)です!!

今回はgroupbyについて学習していきます.

groupbyは,グルーピングをするメソッドです.

グルーピングというのは,データを特定のカテゴリでまとめることを表しています.

例えば,こんな感じの例を考えてみましょう.

このデータフレームは,とある高校の1学年あたりの情報を示したものです.

データフレームには,クラス(class),性別(gender),身長(heigit)の情報があります.

それでは,クラスごとに生徒の身長の平均を求めたい場合はどうすればいいでしょうか?

こんな感じの処理を考えればできそうですね.

①クラスごとにデータフレームを分割する.

②分割したデータフレームごとに身長を平均する.

これらの処理を実現するためのメソッドがgroupbyとmeanです.

こんな感じで何かしらのカテゴリでグルーピングして,それぞれのカテゴリについて傾向を把握することはとても重要です.

0.準備

引数as_index=Falseと設定すると,インデックスをデータフレームの列にすることが出来ます.

1.集約メソッド

先程の例では,グルーピングして平均しました.

平均以外にも総和や最大値など様々な処理をすることができます.

これらの様々な処理をするためのメソッドを集約メソッドと言います.

こちらに使用頻度の高い集約メソッドをまとめました.

複数列でグルーピングすることもできます.

2.便利メソッド

groupbyをしてグルーピングした後に使用できるメソッドとして,集約メソッド以外にも様々な便利メソッドがありますので,いくつか紹介します.

①get_group

get_groupを使用すると,グルーピングしたデータフレームを取得することができます.

②describe

describeでグルーピングしたデータフレームに対し,基本統計量を算出します.

まとめ

今回はグルーピングについて学習しました.

グルーピングをするにはgroupbyを使用します.

groupbyをした後にする処理のうち,1番よくする処理は集約メソッドによる集計処理です.

また集約メソッド以外にも様々な便利メソッドが用意されています.

それでは,お疲れさまでした!!

次回

【pandas】sort_values:ソート【データフレーム処理】

こんにちは,shun(@datasciencemore)です!! 今回はsort_valuesについて学習していきます. sort_valuesは,ソートをするメソッドです. ソートというのは,データ ...

続きを見る

-Python前処理講座