はじめに
pandas_profilingのインストールから使い方までを解説します。
pandas_profilingはデータ分析に必須のツールとなると思います。あまりに便利すぎて驚きました。
よって、紹介します。
pandas_profilingのインストールの方法
- Windowsの場合:コマンドプロンプトから
- Macの場合:ターミナルから
以下を入力してインストール完了です。
pip install pandas_profiling
pandas_profilingの使い方
初見のデータを俯瞰するのに使います。
早速例を使って解説します。
コード
今回は、タイタニックデータを活用してみます。
sample(frac=0.1)でデータ数を削減しています。1だと100%です。なので、例では、10%までデータを削減しています。
import seaborn as sns
import pandas as pd
# Load Titanic dataset
titanic = sns.load_dataset("titanic")
titanic = pd.DataFrame(titanic)
# Pandas profiling automates some early EDA
from pandas_profiling import ProfileReport
profile = ProfileReport(train_merged.sample(frac=0.1), title="Training Data Profile")
profile
結果
- Number of variables:変数の数
- Number of observations:観測数(データ数)
- Missing cells:欠損数
- Missing cells (%):データ欠損の割合
- Duplicate rows:行の重複
- Duplicate rows (%):行の重複割合
- Total size in memory:メモリの全サイズ
- Average record size in memory:メモリ内の平均レコードサイズ
各変数ごとに以下のように表示できます。
- Distinct:明確に割れている数字の数
- Distinct (%):割合?(すみませんいまいち理解できていないです)
- Missing:欠損数
- Missing (%):欠損の割合
- Memory size
次に連続変数は、縦軸と横軸に割り付けてプロットすることができます。
相関係数をヒートマップで表現可能です。
- ピアソンの積率相関
- スピアマンの順位相関係数
- ケンドールの順位相関係数
すみませんあとはわからずです。
関連記事
コメント