徹底解説

【徹底解説】アソシエーション分析

アソシエーション分析とは

アソシエーション分析のイメージ

アソシエーション分析は,大量のデータの中からアイテム間の関連性を見つけるためのデータマイニングの技術です.

アソシエーション分析では1つのサンプルから同時に含まるアイテムを抽出し,様々な指標値を用いてアイテム間の関連度に意味をもたせます.アソシエーション分析で用いる様々な指標値を,アソシエーションルールと言い”支持度”や,”信頼度”がよく用いられます.

アソシエーション分析の活用例

アソシエーション分析がよく用いられる場面は,アンケート結果の分析と購入データの分析になります.

① アンケート結果の分析

アンケート調査では様々な質問形式でデータを収集しますが,特に以下の質問のような複数回答方式から得られたデータを分析する場合に,アソシエーション分析は有効です.

複数回答方式の例

例えば,「副業として”せどり”に興味がある人は,”SNS”にも興味がある傾向が強い」などの分析を行うことができます.

アンケート調査については以下のページで解説しています.

》アンケート調査の計画・分析

② 購入データの分析

ビジネス分野におけるアソシエーション分析の代表的な活用例が,購入データに対する分析です.購入データとはPOSレジデータやレシート,ECサイトの購買データなどを意味し,顧客が商品を購入する度に得られるトランザクションデータになります.

購入データを用いることで,例えば「商品Aを購入している顧客は,商品Bを購入する傾向がある」といった分析を行うことができます.

購入データに対するアソシエーション分析を,”バスケット分析”と表現する場合もあります.購入時に使用する買い物かご(バスケット)の中身(商品)を分析するという意味で,バスケット分析と表現されます.

アソシエーション分析を行う方法

アソシエーション分析は計算方法が複雑なため,Excelなどの手計算で行うことは難しいです.基本的にはRやPythonなどのプログラミング言語を用いて行う必要があります.

統計解析アプリStaatAppではアソシエーション分析を,プログラミングを行わずクリック操作だけで扱うことができます.抽出したアイテムセット・アソシエーションルールを可視化することも可能です.

詳細は以下のページをご覧ください.

》統計解析アプリStaatApp
》StaatAppを用いたアソシエーション分析

アソシエーションルール

アソシエーション分析で用いる指標値であるルールについて解説します.図例では”投資”=アイテムA,”SNS”=アイテムBとしています.

支持度(Support)
支持度の概念図

特定のアイテムセット(一緒に購入されたアイテムの組み合わせ)がデータの中にどれだけ頻繁に出現するかを示します.

支持度が低い場合は,そのアイテムセットのデータが少なく,各指標値の信頼性が低くなるので,支持度が一定の値以上のアイテムセットに対して各指標値を見る場合が多いです.

信頼度(Confidence)
信頼度の概念図

信頼度はアイテムAが含まれるサンプル全てに対する,アイテムBが含まれるサンプルの割合です.

購入データにおいては特定の商品Aを購入した顧客の中で,商品Bを購入した顧客の割合になります.

リフト値(Lift)
リフト値の概念図

リフト値はアイテムAが含まれる場合の,アイテムBが含まれる確率を示します.

購入データにおいては特定の商品Aを購入した顧客が,単にランダムに商品Bを購入するよりも商品Bを購入する可能性がどれほど高いかを示します.

リフト値が1より大きい場合,商品Aを購入した顧客が商品Bを購入する可能性はランダムな場合よりも高いと言えます.逆に、リフト値が1未満の場合,商品Aを購入した顧客が商品Bを購入する可能性はランダムな場合よりも低いと言えます.

Conviction

Convictionはリフト値とは反対で,アイテムAが含まれる場合に,アイテムBが含まれない確率が何分の1になるかを示します.

リフト値と同様に,1より大きい場合アイテムAが含まれることが,アイテムBが含まれることに正の影響を与え,1より小さい場合は負の影響を与えることを意味します.

Leverage

LeverageはアイテムAとアイテムBが同時に含まれる確率を示します.値が0の場合は2つのアイテムが完全に独立,正の場合は同時に含まれる傾向があり,負の場合は同時に含まれない傾向があることを示します.

リフト値と違いはアイテムセットの関係に,アイテムA → アイテムBのような方向性がなく,サンプルに同時含まれるということだけを意味します.このような関係を”共起性”と言います.

共起性と示す指標はLeverage以外に,Jasscard係数・Dice係数・Cosine係数・Simpson係数などがあります.