アソシエーション分析とは
アソシエーション分析は,大量のデータの中からアイテム間の関連性を見つけるためのデータマイニングの技術です.
アソシエーション分析では1つのサンプルから同時に含まるアイテムを抽出し,様々な指標値を用いてアイテム間の関連度に意味をもたせます.アソシエーション分析で用いる様々な指標値を,アソシエーションルールと言い”支持度”や,”信頼度”がよく用いられます.
アソシエーション分析の活用例
アソシエーション分析がよく用いられる場面は,アンケート結果の分析と購入データの分析になります.
① アンケート結果の分析
アンケート調査では様々な質問形式でデータを収集しますが,特に以下の質問のような複数回答方式から得られたデータを分析する場合に,アソシエーション分析は有効です.
例えば,「副業として”せどり”に興味がある人は,”SNS”にも興味がある傾向が強い」などの分析を行うことができます.
アンケート調査については以下のページで解説しています.
② 購入データの分析
ビジネス分野におけるアソシエーション分析の代表的な活用例が,購入データに対する分析です.購入データとはPOSレジデータやレシート,ECサイトの購買データなどを意味し,顧客が商品を購入する度に得られるトランザクションデータになります.
購入データを用いることで,例えば「商品Aを購入している顧客は,商品Bを購入する傾向がある」といった分析を行うことができます.
購入データに対するアソシエーション分析を,”バスケット分析”と表現する場合もあります.購入時に使用する買い物かご(バスケット)の中身(商品)を分析するという意味で,バスケット分析と表現されます.
アソシエーション分析を行う方法
アソシエーション分析は計算方法が複雑なため,Excelなどの手計算で行うことは難しいです.基本的にはRやPythonなどのプログラミング言語を用いて行う必要があります.
統計解析アプリStaatAppではアソシエーション分析を,プログラミングを行わずクリック操作だけで扱うことができます.抽出したアイテムセット・アソシエーションルールを可視化することも可能です.
詳細は以下のページをご覧ください.
》統計解析アプリStaatApp
》StaatAppを用いたアソシエーション分析
アソシエーションルール
アソシエーション分析で用いる指標値であるルールについて解説します.図例では”投資”=アイテムA,”SNS”=アイテムBとしています.
支持度(Support)
特定のアイテムセット(一緒に購入されたアイテムの組み合わせ)がデータの中にどれだけ頻繁に出現するかを示します.
支持度が低い場合は,そのアイテムセットのデータが少なく,各指標値の信頼性が低くなるので,支持度が一定の値以上のアイテムセットに対して各指標値を見る場合が多いです.
信頼度(Confidence)
信頼度はアイテムAが含まれるサンプル全てに対する,アイテムBが含まれるサンプルの割合です.
購入データにおいては特定の商品Aを購入した顧客の中で,商品Bを購入した顧客の割合になります.
リフト値(Lift)
リフト値はアイテムAが含まれる場合の,アイテムBが含まれる確率を示します.
購入データにおいては特定の商品Aを購入した顧客が,単にランダムに商品Bを購入するよりも商品Bを購入する可能性がどれほど高いかを示します.
リフト値が1より大きい場合,商品Aを購入した顧客が商品Bを購入する可能性はランダムな場合よりも高いと言えます.逆に、リフト値が1未満の場合,商品Aを購入した顧客が商品Bを購入する可能性はランダムな場合よりも低いと言えます.
Conviction
Convictionはリフト値とは反対で,アイテムAが含まれる場合に,アイテムBが含まれない確率が何分の1になるかを示します.
リフト値と同様に,1より大きい場合アイテムAが含まれることが,アイテムBが含まれることに正の影響を与え,1より小さい場合は負の影響を与えることを意味します.
Leverage
LeverageはアイテムAとアイテムBが同時に含まれる確率を示します.値が0の場合は2つのアイテムが完全に独立,正の場合は同時に含まれる傾向があり,負の場合は同時に含まれない傾向があることを示します.
リフト値と違いはアイテムセットの関係に,アイテムA → アイテムBのような方向性がなく,サンプルに同時含まれるということだけを意味します.このような関係を”共起性”と言います.
共起性と示す指標はLeverage以外に,Jasscard係数・Dice係数・Cosine係数・Simpson係数などがあります.
信頼度・リフト値・ConvictionはアイテムA → アイテムBといった方向性を意味する指標値です.
購入データに対する場合は,商品Bが購入されることに対する,商品Aの影響度として考えることができます.正の影響がある場合は,商品Aのみを購入している顧客に対して,商品Bをレコメンデーションすることで,売上増加を期待することができます(クロスセル).
類似した意味を持つ信頼度とリフト値において,分析対象のデータによっては異なる傾向を示す場合があります.
例えばリフト値が大きくて,信頼度が小さい場合は,商品Bの購入数が非常に少ない場合になります.少ない購入数の商品Bに対して,商品Aが同時に購入されている確率が高いので,商品Aは商品Bの売上増加のために非常に重要な商品と考えることができます.
逆に信頼度が大きくて,リフト値がほぼ1の場合は,商品Aの購入者は商品Bの購入確率が高いが,そもそも商品Aの購入有無に関わらず商品Bを購入する確率が高いと考えることができます.
実践では,データ自体を見て上記の考えが本当に正しいと言えるか確認することも重要です.