こんにちは,shun(@datasciencemore)です!!
今回はfillnaについて学習していきます.
fillnaは,欠損値を指定した値に置換するメソッドです.
イメージとしてはこのようになります.
データフレームに置換後の値を指定してfillnaを適用すると,欠損値を指定した値に置換します.
この例だと置換後の値を0と設定しているので,欠損値が0に置換されています.
置換後の値の指定方法は,主に2つあります.
1つ目は,引数をvalueとする方法です.
引数をvalueとすると,置換後の値を直接指定することができます.
引数valueは省略することができます.
また,辞書やシリーズで指定することもできます.
2つ目は,引数をmethodとする方法です.
引数をmethodとすると,置換後の値を欠損値の上下の値に指定することができます.
欠損値の上の値で置換する場合,ffillを
欠損値の下の値で置換する場合,bfillを指定すればOKです.
0.準備
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
# パッケージ読み込み import pandas as pd import numpy as np # データフレームの表示行数を指定 pd.set_option('display.max_rows',5) # データフレームを定義 df = pd.DataFrame( { "x":[1, 3, 2, 8, 10], "y":[10, 4, np.nan, 6, np.nan], "z":[np.nan, 8, 7, 8, np.nan] } ).astype("float") |
1.value:置換後の値を直接指定
1 2 |
# 欠損値を0に置換 df.fillna(value=0) |
1 2 |
# 欠損値を0に置換 (value省略) df.fillna(0) |
1 2 |
# y列の欠損値を5に,z列の欠損値を3に置換 df.fillna({"y":5, "z":3}) |
1 2 |
# 欠損値を各列の平均に置換 df.fillna(df.mean()) |
2.method:置換後の値を欠損値の上下の値に指定
1 2 |
# 欠損値の上の値で置換 df.fillna(method="ffill") |
1 2 |
# 欠損値の下の値で置換 df.fillna(method="bfill") |
まとめ
今回はfillnaについて学習してきました.
fillnaは,欠損値を指定した値に置換するメソッドです.
引数にvalueかmethodを設定することで,柔軟に置換後の値を指定することが出来ます.
さて,これで欠損値処理の説明が終了となり,晴れてpandas編が終了となります.
pandasは,データ分析のメインパッケージの中でも一番よく使用するパッケージです.
なので,学習すべき事項もとてもたくさんあります.
1回では絶対に習得できないので,何回も復習しましょう!
次回からplotnine編が始まります.
plotnine編では,データの可視化に焦点を当てていくのでお楽しみに♪
それでは,お疲れさまでした!!
次回
-
【plotnine】plotnineってなに??【可視化】
こんにちは,shun(@datasciencemore)です!! 今回からしばらくの間,plotnineについて説明していきます. 目次0.plotnineってなに??1.データの可視化2.なぜplo ...
続きを見る