Python

pandas_profilingのインストールから使い方までを解説

Python

はじめに

pandas_profilingのインストールから使い方までを解説します。
pandas_profilingはデータ分析に必須のツールとなると思います。あまりに便利すぎて驚きました。
よって、紹介します。

pandas_profilingのインストールの方法

  • Windowsの場合:コマンドプロンプトから
  • Macの場合:ターミナルから

以下を入力してインストール完了です。

pip install pandas_profiling

pandas_profilingの使い方

初見のデータを俯瞰するのに使います。
早速例を使って解説します。

コード

今回は、タイタニックデータを活用してみます。

sample(frac=0.1)でデータ数を削減しています。1だと100%です。なので、例では、10%までデータを削減しています。

import seaborn as sns
import pandas as pd
 
# Load Titanic dataset
titanic = sns.load_dataset("titanic")
titanic = pd.DataFrame(titanic)

# Pandas profiling automates some early EDA
from pandas_profiling import ProfileReport
profile = ProfileReport(train_merged.sample(frac=0.1), title="Training Data Profile")
profile

結果

  • Number of variables:変数の数
  • Number of observations:観測数(データ数)
  • Missing cells:欠損数
  • Missing cells (%):データ欠損の割合
  • Duplicate rows:行の重複
  • Duplicate rows (%):行の重複割合
  • Total size in memory:メモリの全サイズ
  • Average record size in memory:メモリ内の平均レコードサイズ

各変数ごとに以下のように表示できます。

  • Distinct:明確に割れている数字の数
  • Distinct (%):割合?(すみませんいまいち理解できていないです)
  • Missing:欠損数
  • Missing (%):欠損の割合
  • Memory size

次に連続変数は、縦軸と横軸に割り付けてプロットすることができます。

相関係数をヒートマップで表現可能です。

  • ピアソンの積率相関
  • スピアマンの順位相関係数
  • ケンドールの順位相関係数

すみませんあとはわからずです。

コメント

タイトルとURLをコピーしました