こんにちは,shun(@datasciencemore)です!!
今回はselectについて学習していきます.
selectは,列を抽出するメソッドです.
条件を指定してあげると条件を満たした列を抽出してくれます.
1.selectの使い方
selectは,指定方法によって柔軟に列を抽出することができます.
指定方法は全部で3種類あります.
1つ目の指定方法は,直接指定です.
こちらが一番標準的で単純に抽出したい列の列名をそのまま指定してあげればOKです.
続きまして2つ目の指定方法は,正規表現です.
こちらは,抽出したい列の列名の一部を正規表現で指定することで,指定した部分が含まれる列名を抽出します.
続きまして3つ目の指定方法は、データ型指定です.
こちらは,指定したデータ型に該当する列を抽出します.
3.コーディング例
selectを使用して様々な条件で行を抽出しましょう!
今回は,irisデータを利用します.
0.準備
1 2 3 4 5 6 7 8 9 10 |
# パッケージ読み込み import numpy as np import polars as pl import seaborn as sns # データフレームの表示行数を指定 pl.Config.set_tbl_rows(5) # データ読み込み df = pl.from_pandas(sns.load_dataset('iris')) |
1.直接指定
1 2 |
# sepal_length列, species列を抽出 df.select("sepal_length", "species") |
get_columnを使用すると、データフレームの列をシリーズとして抽出できます。
1 2 |
# sepal_length列をシリーズ(ベクトル)として抽出 df.get_column("sepal_length") |
2.正規表現指定
正規表現とは,端的に言うと複数の文字列を一つのパターンでマッチングさせるための表現方法のことです.
正規表現は奥が深いので,ここでは詳しく説明しません.
1 2 |
# sepalが含まれる列名を抽出 df.select("^*sepal.*$") |
3.データ型指定
以下の表に従い、データ型を指定します。
1 2 |
# float型の列を抽出する df.select(pl.col(pl.Float64)) |
まとめ
今回は,select:列の抽出について学習してきました.
selectには
- 直接指定
- 正規表現指定
- データ型指定
の3つの指定方法があり,それぞれを使い分けることで柔軟に列を抽出することができます.
それでは,お疲れさまでした!!