【plotnine】geom_point：散布図【可視化】

こんにちは，shun（@datasciencemore）です！！

今回は，geom_point：散布図について学習していきます．

geom_pointは，散布図を作成するためのメソッドです．

イメージとしてはこのようになります．

データフレームにgeom_pointを適用すると散布図が作成されます．

０．準備
１．散布図の基本
２．コーディング
まとめ

０．準備

# パッケージ読み込み
import pandas as pd
import numpy as np
import seaborn as sns
from plotnine import *
from plotnine.themes import *
import warnings

# データフレームの表示行数を指定
pd.set_option('display.max_rows', 5) 

# 図のサイズ調整
theme_set(theme(
    figure_size=(4.2, 3.6), 
    axis_title=element_text(size=15), 
    axis_text=element_text(size=15)
    )
)

# 警告の非表示
warnings.filterwarnings('ignore')

# データ読み込み
df = \
sns\
.load_dataset('iris')

# パッケージ読み込み

import pandas as pd

import numpy as np

import seaborn as sns

from plotnine import *

from plotnine.themes import *

import warnings

# データフレームの表示行数を指定

pd.set_option('display.max_rows', 5)

# 図のサイズ調整

theme_set(theme(

figure_size=(4.2, 3.6),

axis_title=element_text(size=15),

axis_text=element_text(size=15)

)

# 警告の非表示

warnings.filterwarnings('ignore')

# データ読み込み

df = \

sns\

.load_dataset('iris')

１．散布図の基本

散布図は，連続値の2変数の関係の傾向を確認するためのグラフです．

散布図にすることで，2変数の関係の傾向が明確になります．

今回は，例としてirisデータのsepal_lengthとsepal_widthの2変数の散布図を考えます．

このデータフレームをグラフにしたものが散布図です．

散布図の横軸がsepal_length，縦軸がsepal_widthです．

このように散布図にすると2変数の関係を一目で比較することが出来ます．

今回の例だと

散布図が右肩上がりなので，

sepal_lengthが大きくなるにつれて，sepal_widthも大きくなる傾向がある

ということがわかります．

２．コーディング

# 散布図 x:sepal_length y:sepal_width 
ggplot(
  df,
  aes(x="sepal_length", y="sepal_width")
) +\
geom_point()

# 散布図 x:sepal_length y:sepal_width

ggplot(

df,

aes(x="sepal_length", y="sepal_width")

) +\

geom_point()

# 散布図 x:sepal_length y:sepal_width カテゴリごとに出力（単数）
ggplot(
  df,
  aes(x="sepal_length", y="sepal_width", color="species")
) +\
geom_point()

# 散布図 x:sepal_length y:sepal_width カテゴリごとに出力（単数）

ggplot(

df,

aes(x="sepal_length", y="sepal_width", color="species")

) +\

geom_point()

# 散布図 x:sepal_length y:sepal_width カテゴリごとに出力（複数）
ggplot(
  df,
  aes(x="sepal_length", y="sepal_width")
) +\
geom_point() +\
facet_wrap("species")

# 散布図 x:sepal_length y:sepal_width カテゴリごとに出力（複数）

ggplot(

df,

aes(x="sepal_length", y="sepal_width")

) +\

geom_point() +\

facet_wrap("species")

まとめ

今回は，散布図について学習しました．

散布図は，連続値の2変数の関係の傾向を確認するためのグラフです．

plotnineでは，geom_pointとすればOKです．

これにて，Pythonの前処理講座は終了です，お疲れさまでした！！

長く感じたかもしれないですが，これでも重要事項を厳選したつもりです．

なので，もう少し勉強したほうがいい箇所もありますが，最初からやりすぎるとばててしまうので，とりあえずはこの程度でいいと思います．

あと，個人的な見解ですが，前処理については，PythonよりもRのtidyverseを使用したほうが楽だと思います．

このDX時代，PythonとRは両方使いこなせる必要があると思うので，よろしければぜひRについても理解を深めていただければと思います！

それでは，お疲れさまでした！！