こんにちは,shun(@datasciencemore)です!!
今回は,geom_point:散布図について学習していきます.
geom_pointは,散布図を作成するためのメソッドです.
イメージとしてはこのようになります.
データフレームにgeom_pointを適用すると散布図が作成されます.
0.準備
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
# パッケージ読み込み import pandas as pd import numpy as np import seaborn as sns from plotnine import * from plotnine.themes import * import warnings # データフレームの表示行数を指定 pd.set_option('display.max_rows', 5) # 図のサイズ調整 theme_set(theme( figure_size=(4.2, 3.6), axis_title=element_text(size=15), axis_text=element_text(size=15) ) ) # 警告の非表示 warnings.filterwarnings('ignore') # データ読み込み df = \ sns\ .load_dataset('iris') |
1.散布図の基本
散布図は,連続値の2変数の関係の傾向を確認するためのグラフです.
散布図にすることで,2変数の関係の傾向が明確になります.
今回は,例としてirisデータのsepal_lengthとsepal_widthの2変数の散布図を考えます.
このデータフレームをグラフにしたものが散布図です.
散布図の横軸がsepal_length,縦軸がsepal_widthです.
このように散布図にすると2変数の関係を一目で比較することが出来ます.
今回の例だと
散布図が右肩上がりなので,
sepal_lengthが大きくなるにつれて,sepal_widthも大きくなる傾向がある
ということがわかります.
2.コーディング
1 2 3 4 5 6 |
# 散布図 x:sepal_length y:sepal_width ggplot( df, aes(x="sepal_length", y="sepal_width") ) +\ geom_point() |
1 2 3 4 5 6 |
# 散布図 x:sepal_length y:sepal_width カテゴリごとに出力(単数) ggplot( df, aes(x="sepal_length", y="sepal_width", color="species") ) +\ geom_point() |
1 2 3 4 5 6 7 |
# 散布図 x:sepal_length y:sepal_width カテゴリごとに出力(複数) ggplot( df, aes(x="sepal_length", y="sepal_width") ) +\ geom_point() +\ facet_wrap("species") |
まとめ
今回は,散布図について学習しました.
散布図は,連続値の2変数の関係の傾向を確認するためのグラフです.
plotnineでは,geom_pointとすればOKです.
これにて,Pythonの前処理講座は終了です,お疲れさまでした!!
長く感じたかもしれないですが,これでも重要事項を厳選したつもりです.
なので,もう少し勉強したほうがいい箇所もありますが,最初からやりすぎるとばててしまうので,とりあえずはこの程度でいいと思います.
あと,個人的な見解ですが,前処理については,PythonよりもRのtidyverseを使用したほうが楽だと思います.
このDX時代,PythonとRは両方使いこなせる必要があると思うので,よろしければぜひRについても理解を深めていただければと思います!
それでは,お疲れさまでした!!