クラスター分析はデータをまとまりごとに整理したり、分析したりするのに役立ちます。しかし、クラスター分析の手法は多種多様なため、いつどのように使えばいいか悩んでいる方も多いでしょう。本記事では、クラスター分析の種類や特長、活用方法などをわかりやすく解説します。
目次
クラスター分析は、複数のデータのなかからグルーピングするために使用されますが、分析方法には種類があります。では、クラスター分析の使い方や種類について、くわしく解説します。
定量分析とは?メリット・デメリットや代表的な5つの手法を紹介
定性分析の代表的な手法やメリット・デメリット|定量分析との違いも解説
クラスター(cluster)は英語で「集団、群れ」という意味を持つ単語です。そこから派生して、複数のデータの集まりから似ているデータ同士を集団ごとにグルーピングする分析方法を「クラスター分析」といいます。属性が決まっているデータを集団ごとに分類するのはクラスター分析とは呼ばないため、注意が必要です。
たとえば、アンケートを分析するときに、性別や年齢といった明確に分類できる属性をもとにグルーピングするのではなく、ニーズや意識など明確になっていない属性をもとにグルーピングするのがクラスター分析です。クラスターの数に決まりはないため、任意の数のクラスターに分類できます。
クラスター分析の一種である「階層性クラスター分析」は、複数のクラスターからデンドログラムといわれる樹形図を作成する分析方法です。階層性クラスター分析は、トーナメント表のような構成になっています。上から下にいくほど大きなクラスターから細分化されたクラスターが広がっているため、全体像が把握しやすいことが特徴です。
またクラスター分析では、最初の段階で分類するクラスターの数を決定しようとすると、先に進まなくなることも少なくありません。しかし階層性クラスター分析では、あらかじめクラスターの数を決める必要がありません。そのため、データを分析しながらクラスターを作成できる点がメリットです。ただし、データのボリュームが大きいとデンドログラムが大きくなりすぎて、かえって全体像を把握しにくくなったり、分析に時間がかかったりする可能性があります。
階層性クラスター分析とともにクラスター分析の一種である「非階層性クラスター分析」は、最初にクラスター数を決定したうえでデータをクラスターごとに分類する分析方法です。階層性クラスター分析とは違い、デンドログラムを作成しないため、クラスターごとの割合のみ把握できます。非階層性クラスター分析の特徴は、データの数が多いときに分類しやすい点です。ただし、最初に設定するクラスター数が少なすぎるとグルーピングしてもデータの考察が実施しにくい場合があるので、データに対して適切なクラスター数を設定する必要があります。
クラスター分析の対象は人間だけではありません。商品やサービス、企業や地域など、曖昧性のあるさまざまなデータをクラスターごとに分類できるのが特長です。マーケティングにおいては次のように使われるのが一般的です。
クラスター分析は、おもに次の手順に沿って最適な分析方法を決定して進めます。データに対して分析方法が合っていないとデータの考察が実施しにくいため、段階を踏んで進めていきましょう。
まず、データの量をもとに「階層性クラスター分析」と「非階層性クラスター分析」のどちらを用いるべきか、または併用する必要があるかを判断します。あくまで目安ではありますが、データ数ごとにベストな分析方法は次の表を参考にしてみてください。
データ数 | 分析の種類 |
100以下 | 階層性クラスター分析 |
およそ100〜300 | 階層性クラスター分析と非階層性クラスター分析を併用 |
300以上 | 階層性クラスター分析、または非階層性クラスター分析 |
分析の種類を決定したら、個体同士の類似性を数量的に定義します。というのも、クラスター分析において個体同士が「何を持って似ているか」を定義しないと、一定の基準で分類できないためです。個体同士の距離(類似性)を分類する方法としてよく用いられるのが、次の方法です。
一般的な距離の測定方法
ユークリッド距離(直線距離) | 個体同士に相関があるときに使われる手法。相関が強い方向の距離は短く、相関が弱い方向の距離は長くする。 |
マンハッタン距離(市街地距離) | 碁盤の目状の都市(マンハッタン・京都など)で道路を通るときのように、個体同士の相関にかかわらず、均等に距離を確保する手法。 |
チェビシェフ距離 | 同じ次元にある変数を、別の次元の変数とみなす場合に使用する手法。ユークリッド距離とは違い、斜めも同じ距離とみなし、正方形状に広がるのが特徴。 |
ミンコフスキー距離 | ユークリッド距離とマンハッタン距離を含む指標。 |
最初のステップで階層性と非階層性の分析方法を決定しましたが、それぞれの分析方法はさらに細かい手法に分かれています。データの種類やボリュームに合わせて手法を選択し、クラスター分析を実施してみてください。
分析手法 | 代表的な方法 |
階層性クラスター分析 | ・ウォード法:クラスター内のデータの平方和(平均からの偏差値)を最少にする ・最短距離法(最近隣法):距離が近いものから順に併合する ・最長距離法(最遠隣法):距離が遠いものから順に併合する ・重心法:クラスターの重心からの距離を基準にして併合する ・群平均法:個体同士で、すべてのデータの距離の平均を基準に併合する ・その他:メディアン法、可変法など |
非階層性クラスター分析 | ・k平均法:クラスターの平均を利用して、決められたクラスター数「k」個に分類する ・その他:超体積法など |
クラスター分析の具体的な活用例は、おもに次のとおりです。
商品またはサービスの利用者の傾向や意識を調査し、分類する例を記載するために階層性クラスター分析が活用されるケースがあります。
たとえばWebサービスを提供している場合、顧客の悩みやITリテラシーのレベルなどにもとづいてクラスター分析を実施すれば、より顧客のニーズに合ったサービスにブラッシュアップできます。また、生活パターンや趣味嗜好をもとにクラスター分析を実施すれば、より詳細なペルソナを導き出すことも可能です。
商品やサービスへの意識を調査したアンケートをもとに非階層性クラスター分析を行い、顧客の感情を分類すれば、顧客満足度を計算できます。また、階層性クラスター分析を実施した場合、顧客の意見が何種類に分類されるのか、意見の幅を確認することも可能です。
クラスター分析を行うときは、次の3つのポイントに注意して進めるのがおすすめです。注意点を把握したうえで、果たしてクラスター分析が最適なのか、分析方法は正しいのかを判断してみてください。
クラスター分析は明確な属性をもとにグルーピングする方法ではないため、客観的な根拠として提示するのは向いていません。クラスター分析のおもな目的は、複数のデータのなかから新たなニーズを見出したり、分類したクラスターをもとに新しいアイデアを生み出したりすることです。そのため、ソースやエビデンスとしてクラスター分析の結果や考察を活用するのはおすすめできません。
クラスター分析は、あくまでも似ている属性を把握するための分析方法です。そのため、クラスター分析を行った後にクラスターごとの割合を計算したり、クラスターの持つ意味を考察したりなど、プラスアルファの方法と組み合わせる必要があります。クラスター分析はあくまでも、複数のデータから新たな側面を発見するためのツールでしかないことを理解しておきましょう。
ただし、クラスター分析の結果をもとに考察を行うときは個人の主観が反映されることが多いため、客観性を確保するために複数人で行うのがおすすめです。クラスターについて話し合ったり、考察結果について複数人の意見を募ったりなど、できるだけ主観が反映されないように心がけてみてください。
クラスター分析は類似性を基準にデータのグルーピングを行いますが、きれいに属性が分かれるとは限りません。その理由として、データのボリュームが少なかったり、データに類似性がなかったりすると、クラスター(集団)が作れないためです。また、クラスターに大きな偏りが生まれて、分析後に考察がしにくい状態になることも少なくありません。そういった場合は、データの類似性を判断する定義の変更やクラスター数の変更(階層性と非階層性の切り替え)などが有効です。どうしてもうまくいかないときは、データに対してクラスター分析が合っていない可能性があります。ほかの分析方法も検討したうえで、適切な分析手法を取り入れてみてください。
クラスター分析は統一性のないデータをグルーピングすることで、新たな発見やアイデアが見つかる分析手法です。市場調査やマーケティングにおいて活用すれば、顧客のニーズを把握しやすくなるでしょう。
弊社ではさまざまお客様のWebマーケティングの課題に対し、コンサルティングサービスを行っています。マーケティングに関するお悩みがあれば、ぜひお気軽にご相談ください。
SEO最新情報やセミナー開催のお知らせなど、お役立ち情報を無料でお届けします。