TOP
メディア
クラスター分析とは？種類と活用方法を解説！

クラスター分析とは？種類と活用方法を解説！

公開日：2024/01/18

最終更新日：2024/07/09

マーケティングガイド

無料で資料をダウンロード

SEOコンサルティングサービスのご案内
専門のコンサルタントが貴社サイトのご要望・課題整理から施策の立案を行い、検索エンジンからの流入数向上を支援いたします。

クラスター分析はデータをまとまりごとに整理したり、分析したりするのに役立ちます。しかし、クラスター分析の手法は多種多様なため、いつどのように使えばいいか悩んでいる方も多いでしょう。本記事では、クラスター分析の種類や特長、活用方法などをわかりやすく解説します。

クラスター分析とは
クラスター分析の特長
クラスター分析の手順
クラスター分析の活用例
- 顧客をグルーピングする
- アンケートデータを分析する
クラスター分析の注意点
まとめ

クラスター分析とは

クラスター分析は、複数のデータのなかからグルーピングするために使用されますが、分析方法には種類があります。では、クラスター分析の使い方や種類について、くわしく解説します。

定量分析とは？メリット・デメリットや代表的な5つの手法を紹介

定性分析の代表的な手法やメリット・デメリット｜定量分析との違いも解説

クラスター分析とは集団に分けて分析すること

クラスター（cluster）は英語で「集団、群れ」という意味を持つ単語です。そこから派生して、複数のデータの集まりから似ているデータ同士を集団ごとにグルーピングする分析方法を「クラスター分析」といいます。属性が決まっているデータを集団ごとに分類するのはクラスター分析とは呼ばないため、注意が必要です。

たとえば、アンケートを分析するときに、性別や年齢といった明確に分類できる属性をもとにグルーピングするのではなく、ニーズや意識など明確になっていない属性をもとにグルーピングするのがクラスター分析です。クラスターの数に決まりはないため、任意の数のクラスターに分類できます。

階層性クラスター分析とは

クラスター分析の一種である「階層性クラスター分析」は、複数のクラスターからデンドログラムといわれる樹形図を作成する分析方法です。階層性クラスター分析は、トーナメント表のような構成になっています。上から下にいくほど大きなクラスターから細分化されたクラスターが広がっているため、全体像が把握しやすいことが特徴です。

またクラスター分析では、最初の段階で分類するクラスターの数を決定しようとすると、先に進まなくなることも少なくありません。しかし階層性クラスター分析では、あらかじめクラスターの数を決める必要がありません。そのため、データを分析しながらクラスターを作成できる点がメリットです。ただし、データのボリュームが大きいとデンドログラムが大きくなりすぎて、かえって全体像を把握しにくくなったり、分析に時間がかかったりする可能性があります。

非階層性クラスター分析とは

階層性クラスター分析とともにクラスター分析の一種である「非階層性クラスター分析」は、最初にクラスター数を決定したうえでデータをクラスターごとに分類する分析方法です。階層性クラスター分析とは違い、デンドログラムを作成しないため、クラスターごとの割合のみ把握できます。非階層性クラスター分析の特徴は、データの数が多いときに分類しやすい点です。ただし、最初に設定するクラスター数が少なすぎるとグルーピングしてもデータの考察が実施しにくい場合があるので、データに対して適切なクラスター数を設定する必要があります。

クラスター分析の特長

クラスター分析の対象は人間だけではありません。商品やサービス、企業や地域など、曖昧性のあるさまざまなデータをクラスターごとに分類できるのが特長です。マーケティングにおいては次のように使われるのが一般的です。

顧客層の特性を見分ける分析
店舗ごとに取り扱う商品構成の分析
商圏の特性分析
企業やブランドのポジショニング分析

クラスター分析の手順

クラスター分析は、おもに次の手順に沿って最適な分析方法を決定して進めます。データに対して分析方法が合っていないとデータの考察が実施しにくいため、段階を踏んで進めていきましょう。

分析の種類を決定する

まず、データの量をもとに「階層性クラスター分析」と「非階層性クラスター分析」のどちらを用いるべきか、または併用する必要があるかを判断します。あくまで目安ではありますが、データ数ごとにベストな分析方法は次の表を参考にしてみてください。

データ数	分析の種類
100以下	階層性クラスター分析
およそ100〜300	階層性クラスター分析と非階層性クラスター分析を併用
300以上	階層性クラスター分析、または非階層性クラスター分析

個体同士の類似性を数量的に定義する

分析の種類を決定したら、個体同士の類似性を数量的に定義します。というのも、クラスター分析において個体同士が「何を持って似ているか」を定義しないと、一定の基準で分類できないためです。個体同士の距離（類似性）を分類する方法としてよく用いられるのが、次の方法です。

一般的な距離の測定方法

ユークリッド距離（直線距離）	個体同士に相関があるときに使われる手法。相関が強い方向の距離は短く、相関が弱い方向の距離は長くする。
マンハッタン距離（市街地距離）	碁盤の目状の都市（マンハッタン・京都など）で道路を通るときのように、個体同士の相関にかかわらず、均等に距離を確保する手法。
チェビシェフ距離	同じ次元にある変数を、別の次元の変数とみなす場合に使用する手法。ユークリッド距離とは違い、斜めも同じ距離とみなし、正方形状に広がるのが特徴。
ミンコフスキー距離	ユークリッド距離とマンハッタン距離を含む指標。

「統計的に有意」とは？初心者でもわかるデータ分析と活用方法

分析の手法を決定する

最初のステップで階層性と非階層性の分析方法を決定しましたが、それぞれの分析方法はさらに細かい手法に分かれています。データの種類やボリュームに合わせて手法を選択し、クラスター分析を実施してみてください。

分析手法	代表的な方法
階層性クラスター分析	・ウォード法：クラスター内のデータの平方和（平均からの偏差値）を最少にする・最短距離法（最近隣法）：距離が近いものから順に併合する・最長距離法（最遠隣法）：距離が遠いものから順に併合する・重心法：クラスターの重心からの距離を基準にして併合する・群平均法：個体同士で、すべてのデータの距離の平均を基準に併合する・その他：メディアン法、可変法など
非階層性クラスター分析	・k平均法：クラスターの平均を利用して、決められたクラスター数「k」個に分類する・その他：超体積法など

クラスター分析の活用例

クラスター分析の具体的な活用例は、おもに次のとおりです。

顧客をグルーピングする

商品またはサービスの利用者の傾向や意識を調査し、分類する例を記載するために階層性クラスター分析が活用されるケースがあります。

たとえばWebサービスを提供している場合、顧客の悩みやITリテラシーのレベルなどにもとづいてクラスター分析を実施すれば、より顧客のニーズに合ったサービスにブラッシュアップできます。また、生活パターンや趣味嗜好をもとにクラスター分析を実施すれば、より詳細なペルソナを導き出すことも可能です。

アンケートデータを分析する

商品やサービスへの意識を調査したアンケートをもとに非階層性クラスター分析を行い、顧客の感情を分類すれば、顧客満足度を計算できます。また、階層性クラスター分析を実施した場合、顧客の意見が何種類に分類されるのか、意見の幅を確認することも可能です。

クラスター分析の注意点

クラスター分析を行うときは、次の3つのポイントに注意して進めるのがおすすめです。注意点を把握したうえで、果たしてクラスター分析が最適なのか、分析方法は正しいのかを判断してみてください。

客観的な根拠にするのは向いていない

クラスター分析は明確な属性をもとにグルーピングする方法ではないため、客観的な根拠として提示するのは向いていません。クラスター分析のおもな目的は、複数のデータのなかから新たなニーズを見出したり、分類したクラスターをもとに新しいアイデアを生み出したりすることです。そのため、ソースやエビデンスとしてクラスター分析の結果や考察を活用するのはおすすめできません。

分析後の考察を客観的な視点で行う必要がある

クラスター分析は、あくまでも似ている属性を把握するための分析方法です。そのため、クラスター分析を行った後にクラスターごとの割合を計算したり、クラスターの持つ意味を考察したりなど、プラスアルファの方法と組み合わせる必要があります。クラスター分析はあくまでも、複数のデータから新たな側面を発見するためのツールでしかないことを理解しておきましょう。

ただし、クラスター分析の結果をもとに考察を行うときは個人の主観が反映されることが多いため、客観性を確保するために複数人で行うのがおすすめです。クラスターについて話し合ったり、考察結果について複数人の意見を募ったりなど、できるだけ主観が反映されないように心がけてみてください。

必ずしもきれいに属性が分かれるとは限らない

クラスター分析は類似性を基準にデータのグルーピングを行いますが、きれいに属性が分かれるとは限りません。その理由として、データのボリュームが少なかったり、データに類似性がなかったりすると、クラスター（集団）が作れないためです。また、クラスターに大きな偏りが生まれて、分析後に考察がしにくい状態になることも少なくありません。そういった場合は、データの類似性を判断する定義の変更やクラスター数の変更（階層性と非階層性の切り替え）などが有効です。どうしてもうまくいかないときは、データに対してクラスター分析が合っていない可能性があります。ほかの分析方法も検討したうえで、適切な分析手法を取り入れてみてください。