【Python】shapの使い方を解説｜機械学習モデルの要因分析したい

この記事では、こんな悩みを解決します。

悩んでいる人

機械学習のモデルの要因を分析するのにいい方法は？
shapの使い方を知りたい
shapley値とは？

機械学習のモデルの要因を分析したいってことありますよね。

例えば、お客様に納品した機械学習モデルがなぜこのような結果を出力するのか？を説明しなくてはならない。

という場面。

こんな場面で活躍するのがshapです。

こんな風に作ったモデルが、何を要因として、そのような判断をしたのか？を可視化してくれます。

そんな、shapの使い方を見ていきましょう。

☆今だけの激熱キャンペーンをまとめました☆

【最大44000円分無料ゲット】仮想通貨ビットコインを無料でもらう方法｜タダで貰えるサービスを紹介

仮想通貨の取引所の口座を開設することで、仮想通貨がタダでもらえます。今キャンペーン中の取引所をまとめたので参考にしてみてください。

shapとは？
shapのインストール方法
シャープレイ値を持つ説明可能なAI
Pythonによる機械学習やデータ分析
Pythonによるデータ分析の勉強方法が知りたい
まとめ

shapとは？

SHAP（SHapley Additive exPlanations）は、機械学習モデルの出力を説明するためのゲーム理論的アプローチです。

中々難しいのですっとばします。

もし、詳細を知りたい方は、こちらの論文を参照されるのが良いかと思います。

A Unified Approach to Interpreting Model Predictions

Understanding why a model makes a certain prediction can be as crucial as the prediction's accuracy in many applications...

月見

時間があるとき、私も読んでみようと思います。

shapのインストール方法

会計士, カウント, 計算, 書き込み, ドキュメント, テキスト, 紙, ビジネス, オフィス, 手紙, 本

インストール方法は二つあります。

以下のコマンドをMacならばターミナルで、Windowsならばコマンドプロンプトに打ち込むことで、インストール可能です。

pip install shap

もしくはこちらです。

conda install -c conda-forge shap

シャープレイ値を持つ説明可能なAI

アナリティクス, 情報, 技術革新, 通信, 大きなデータ, データ, サイバーセキュリティ, サイバー

シャープレイ値とは？

それぞれの因子が提携し、得られた報酬配するような状況において、貢献度が異なる場合どのように構成に分配するかを決めるパラメータの例として、シャープレイ値が存在します。

シャープレイ値を体感する

とりあえず実装しながら、理解を深めましょう。

線形回帰モデルにて、シャープレイ値がどのように機能するのか？を確認します。

今回は、ボストンの住宅価格のデータセットを使用します。

ボストン住宅価格データセット

アムステルダム, オランダ, 住宅, ストリート, アーキテクチャ, 市, カラフルです, チャネル, 建物

ボストンの住宅価格のデータセットの説明因子一覧はこちら。

CRIM-町ごとの一人当たりの犯罪率
ZN-25,000平方フィートを超える区画にゾーニングされた住宅用地の割合。
INDUS-町ごとの非小売業のエーカーの割合。
CHAS-チャールズ川のダミー変数（路が川に接している場合は1、それ以外の場合は0）
NOX-一酸化窒素濃度（1000万分の1）
RM-住居あたりの平均部屋数
年齢-1940年より前に建設された持ち家の割合
DIS-5つのボストン雇用センターまでの加重距離
RAD-放射状高速道路へのアクセシビリティの指標
TAX-全額固定資産税-10,000ドルあたりの税率
PTRATIO-町別の生徒と教師の比率
B-1000（Bk-0.63）^ 2ここで、Bkは町ごとの黒人の割合です
LSTAT-人口のステータスが％低い
MEDV-1000ドルの持ち家の中央値

この説明因子から、住宅の価格を推定するというものです。

まずはさくっと、sklearnで、線形回帰モデルにフィッティングします。

import pandas as pd
import shap
import sklearn

# a classic housing price dataset
X,y = shap.datasets.boston()
X100 = shap.utils.sample(X, 100) # 100 instances for use as the background distribution

# a simple linear model
model = sklearn.linear_model.LinearRegression()
model.fit(X, y)

Xの中身を確認するとこんなかんじ

EDA

ざくっと、各説明因子と目的関数の関係をプロットして把握しましょう。

import seaborn as sns
df = X
df["cost"] = y
sns.pairplot(df)

seabornのペアプロットを使います。

一つのpandasデータフレームにまとめて、目的変数の住宅価格は、costというカラムに格納しました。

わかりにくいですが、一番下の行が、縦軸costと横軸に各因子をプロットしたものです。

横軸：RMの場合には、右肩上がり、

横軸：LSTATの場合には右肩下がりの関係になっていることがわかります。

モデル係数

線形回帰の場合は、その係数を把握すると各説明因子の変動でどれだけ、目的変数が変動するかを把握できます。

print("Model coefficients:\n")
for i in range(X.shape[1]):
    print(X.columns[i], "=", model.coef_[i].round(4))

結果はこちら。

RMやCHASやDISあたりの変動で目的変数が大きく動くということがわかります。

ただし、注意が必要なのが、この値の大きさが、全体の特徴を反映しているわけではないということです。

あくまで、この値が変動したときに、目的変数がどの程度動くかという指標なのです。

モデル係数は、各因子がどの程度重要なのか？に対する良い尺度であるわけではないということが重要です。

各因子のモデル出力に対する部分的な影響を把握する

shap.plots.partial_dependence(
    "RM", model.predict, X100, ice=False,
    model_expected_value=True, feature_expected_value=True
)

実行結果は、以下です。

このグラフは、横軸にRM、縦軸にモデルの出力値（住宅価格の推定値）となります。

要するに、RMが大きくなれば、住宅価格も上昇傾向にあるということです。

これは、ペアプロットでも確認していますね。

上のプロットの灰色の水平線は、ボストン住宅データセットに適用されたときのモデルの期待値を表しています。

灰色の縦線は、RMの平均値を表します。

またヒストグラムは、RMの度数を表しています。どれだけの数あるかという意味です。

部分相関プロットからのSHAP値の読み取り

部分相関プロットからどのようにshap値を算出するかを確認します。

線形モデルは非常に単純なので、部分的な依存関係プロットからすぐにSHAP値を読み取ることができます。

予測を説明するとき?(?)、特定の機能のSHAP値 ?は、期待されるモデル出力と、特徴量での部分依存プロットとの差となります。

以下のコードでは18番目のデータのshap値をプロットするコードです。

X.loc[18]

18番目のデータはこのようになっています。

# compute the SHAP values for the linear model
explainer = shap.Explainer(model.predict, X100)
shap_values = explainer(X)

# make a standard partial dependence plot
sample_ind = 18
shap.partial_dependence_plot(
    "RM", model.predict, X100, model_expected_value=True,
    feature_expected_value=True, ice=False,
    shap_values=shap_values[sample_ind:sample_ind+1,:]
)

赤い線の長さがshap値です。

shap値でプロットすると以下のようになります。

shap.plots.scatter(shap_values[:,"RM"])

シャープレイ値の相加的性質

シャープレイ値の基本的な特性の1つは、すべてのプレーヤー（因子）が存在する場合のゲーム（出力値）の結果と、プレーヤー（因子）が存在しない場合のゲーム（出力値）の結果の差に常に合計されることです。

このアイデアの背景は、協力ゲーム理論からの公正な割り当てからきています。

個々の予測の説明を表示するようにするには、shapのウォーターフォールプロットがあります。

モデルのある出力値がそれぞれの因子がどのように働いているかを示すものです。

画像に alt 属性が指定されていません。ファイル名: image-167.png

このような値（18番目のデータ）を与えたときに、目的変数の値に対して各要素がどの程度作用しているのかを示すウォーターフォールの図となります。

# the waterfall_plot shows how we get from shap_values.base_values to model.predict(X)[sample_ind]
shap.plots.waterfall(shap_values[sample_ind], max_display=14)