Python前処理講座

【pandas】pandasってなに??

こんにちは,shun(@datasciencemore)です!!

今回からpandasについて説明していきます.

pandasはnumpyと同様,データ分析に欠かせないパッケージとなります.

じっくりと学習していきましょう!

0.pandasってなに??

pandasってなんですか??

pandasは主にデータフレーム処理をするためのパッケージのことだよ!!
pandasを使用することで,スムーズにデータ分析ができるようになるんだ!!

pandas抜きでは,データ分析を語ることはできません.

そんなpandasでできることをこれから簡単にですが説明していこうと思います,

1.データフレーム処理

データ分析は,多くの場合,表形式のデータを色々な形に加工していく必要があります.

この表形式のデータのことをデータフレームといいます.

例えば,以下のようにデータフレームのピンクの部分を抽出して新しい列を追加するという処理について考えてみましょう.

そのような処理は,

左のデータフレームに対し,

①行の抽出という処理をすることでピンクの行を抽出し,

②列の追加という処理をすることで水色の列を追加することで実現できます.

このようなデータフレームの加工処理を当コースではデータフレーム処理と呼んでいます.

そしてこのようなデータフレーム処理を実施するためのパッケージがpandasというわけです.

2.シリーズとデータフレーム

ちなみにpandasで扱えるデータは,データフレームのほかにシリーズというものもあります.

違いはシリーズが1列に対し,データフレームが1列以上というところです.

当講座では,データフレームをメインで説明していきたいと思います.

理由としては,データフレームのほうが圧倒的に使用頻度が高いからです.

3.pandasを利用する際の注意点

pandasはデータフレーム処理をする際に便利なのですが,注意すべきこともあります.

それは

同じ処理でもコーディングの仕方が色々ある

ということです.

これはよく言うと柔軟な仕様と言えるのですが,pandasに慣れないうちは混乱のもとにもなりえます.

よって当講座では,

あまり良くないコーディング方法をbad

オススメのコーディング方法をgood

として説明する場合があるのでご承知おきください.

ここでどういう基準でbadとgoodを判定しているかについて説明いたします.
判定基準は基本的にコードの可読性で決めています.
コードの可読性とはコードの読みやすさということです.
なので基本的に
badはコードが読みづらく
goodはコードが読みやすい
ということです.

このbadとgoodの判定は完全に僕の独断と偏見なので,必ずしもこの判定が正しいというわけではありません.
一般的に可読性が高いコードはメモリ効率が悪かったり,処理が遅くなることが多いです.
なのでシステム実装をする場合は badとgoodが入れ替わることもあります.

ただ,僕は業務上,データ分析をすることが多いのですが,データ分析をする際は,コードのパフォーマンスよりも可読性を重視したほうがいいと考えています.
なぜかというと,データ分析時は処理内容を頻繁に変えるのですが,可読性が低いとどこでどのような処理を実施したのか把握しづらくなるからです.

というわけで僕の今までの経験をもとにbadとgoodに切り分ける場面もありますが,
これは僕の独断と偏見による基準,もっとわかりやすく言うとただの感想であり,一般的な基準ではないということをご承知おきください.

badだろうがgoodだろうが,結果は同じなのでそこまでbadとgoodの判定にこだわる必要はありません.
色々試して,ぜひご自身で自分なりのベストと探していただければと思います.

まとめ

今回はpandasについてやってきました.

pandasはデータフレーム処理をするためのパッケージでした.

pandasはnumpyと同様,データ分析をするうえで必要不可欠なパッケージなので丁寧に学習していきましょう!

それでは,お疲れさまでした!!

次回

【pandas】データの入出力

こんにちは,shun(@datasciencemore)です! 今回は,データの入出力についてやっていきます. データの入力というのは,既存のデータを読み込んでデータフレームにすること データの出力と ...

続きを見る

-Python前処理講座