グーグルはページとクエリに対するカテゴリーを特定しているのだろうか?そして、このカテゴリーは検索結果でページを格付けする仕組みで何かしら役目を負っているのだろうか?
ほぼ毎日、私が投稿した、グーグルのライブラリのバーチャルな本棚の計画に関する強力な記事のおかげで、クエリ「bookshelf plans」(註:「本棚 プラン」)でビジターが私のサイトを訪問する。この類のビジターの大半はページがオンラインのライブラリを取り上げていても、ページのタイトル、そして、エントリを説明するスニペットを見ているため、驚いてはいないだろう。 しかし、検索結果のその他のページはバーチャルではなく、通常の木製の本棚に関するページである。私のページはその他のカテゴリーとは一致していないのだ。
検索エンジンが、ページが特定のクエリに関連しているかどうかを特定する際には、クエリのテキストとそのテキストを含むページをマッチさせようと試みたり、そのページに向かうリンクに注目したりするだけではない。2004年に申請され、本日付与されたグーグルの特許は、検索エンジンがウェブページをカテゴリーを使って、また、クエリをカテゴリーを使って関連させようと試む仕組み、そして、カテゴリースコアを考案し、カテゴリーに対してページを格付けする仕組みを説明している。
この類のカテゴリーのマッチングは、複数の異なる問題を解決するようだ。
検索エンジンによるテキストのマッチングは、あまりにも言葉通り受けられてしまうと言う問題がある。例えば、「car mechanic」で検索をかけると、「auto mechanic」または「automobile mechanic」でも検索していることになる。しかし、「car」が「auto mechanic」に関するページで表示されていない場合、純粋なテキストマッチングアプローチの下では、検索結果にこのページは現れない。
また、クエリ内で用いられる単語やフレーズが利用されいている他にも意味がある場合も問題が発生する。私の「bookshelves」が良い例だ。「bookshelves plans」を探しているなら、本棚を作ろうとしており、設計図や説明書を求めている確率が高い。しかし、私が投稿したエントリは、バーチャルな本棚を作ろうとするグーグルの計画に関するものだった。また、「plans」は工作に対する実際の設計図、あるいはプロジェクトで前進するための戦略と解釈される可能性がある。「bookshelves」と言う用語は本を置く家具、または、本に関する情報を持つためのバーチャルな場所に言及しているかもしれない。
特許:
カテゴリー化した検索結果に対する複合のスコアを特定するシステムおよびメソッド
考案: Karl Pfleger、Brian Larson
委託先: Google
米国特許申請番号: 7,814,085
付与日: 2010年10月12日
申請日: 2004年2月26日
要約
文書を採点するシステムおよびメソッド。検索の基準に応じて、1つ、あるいは複数の文書の特定が行われる。特定された文書のマッチの質を示すテキストのマッチスコアが決められる。カテゴリーのマッチスコアは、カテゴリーを基に決められる。特定された文書とカテゴリーの複数のカテゴリーとの間のマッチの質を文書のカテゴリースコアが決定する。
基準のカテゴリースコアは、検索の基準とカテゴリーとの間のマッチの質を示唆する。全体的なスコアは、テキストのマッチスコアとカテゴリーのマッチスコアを基に決められる。
ページおよびクエリのカテゴリーは人手により作成される可能性もあるが、自動プロセス、または双方を組み合わせて行われる可能性も考えられる。このようなカテゴリーはリストとして、あるいは階層、もしくはその他の方法で定義され、文書とクエリは複数のカテゴリーに振り分けられる。ページとクエリの用語は、カテゴリーに対する相関関係の強さを基に、カテゴリーに関連付けられる。カテゴリーとのこの関連性の強さは、それぞれ、もしくはクエリによって異なる。
関連性の強さが、特定の文書とカテゴリー、そして、各クエリの用語とカテゴリーとの間で決定される。この関連性の強さは、テキストベースのマッチングスコアと併用され、クエリの用語に対して、どのページを格付けされるのかを決める可能性がある。
製品検索の例
この特許によると、製品に関するページのスコアは、カテゴリーに振り分けやすいようだ。例えば、階層的なカテゴリーの構造の「家」が生成されるとする。この大きなカテゴリーの下に「清掃用品」、「芝生の手入れ」、「メンテナス」、そして、「装飾品」の小さなカテゴリーが存在するとしよう。「ほうき」、「モップ」、「掃除機」、「熊手」、「芝刈り機」、「フラミンゴ」、そして、「ノーム人形」等、さらに小さなカテゴリーが作成される可能性もある。
そのため、例えば、「フラミンゴ」に関するページ(あるいはクエリ)は次のようなカテゴリーリストに含まれるだろう:
家 > 芝生の手入れ > 装飾品 > フラミンゴ
ページがインデックスされると、カテゴリースコアと共に格付け用のテキストベースのスコアが与えられる可能性がある。フラミンゴに関するページは、その他のフラミンゴに関するページと比較され、フラミンゴとどのぐらい関係が強いかを基にカテゴリースコアが与えられる。
芝生の装飾品に関するページは、フラミンゴと芝生のノームの置物に関する情報を含んでおり、フラミンゴのカテゴリーとノームのカテゴリーの双方にフィットするものの、フラミンゴに対する関係性のスコアは、フラミンゴのみに関するページのスコアよりも劣る可能性がある。
結論
グーグルがここ6、7年でこのようなクエリの用語とウェブページとの間のカテゴリーマッチングを行ってきた可能性は十分にあり得る。また、この特許が解決しようとしていた問題の解決を試みるその他のアプローチに移っている可能性もある。
この特許に描かれているこの種のカテゴリーマッチングは関連性を決定するアプローチの1つである。この関連性のコンセプトが検索エンジンによって適用されている方法は他にも幾つかある。
まず考えられるのは文書とクエリの用語やフレーズとの間のマッチングを直接行う手法だ。この単語の関連性の考え方の下では、同じ単語がクエリおよびページに現れたら、そのページはその用語に対して関連性があると見なされる。 この特許はこの種の関連性の決定を改善しようとしていた。
最近では、検索エンジンはクエリの裏側にある意図を理解する試みをより重要視するようになっている。このタイプの解釈は、クエリの用語が「xxxxx買う」等の用語であったら売買のサイトを検索結果に返そうとする取り組みなど、シンプルな解釈である可能性もある。クエリが「How to」等で始まるフレーズの場合、情報ページを返すことに焦点を絞るのかもしれない。検索エンジンは、ナビゲーショナルだと考える特定のウェブサイトをクエリに対して返そうと努力しているのだ。要するに、私がESPNのウェブサイトを訪問するためのショートカットとして、ESPNと検索ツールバーに入力するときのように、検索する側は特定のウェブサイトを探そうとしている確率が高いのだ。
状況におけるニーズを満たす関連性もある。例えば、もし私が「Pizza」を検索したとすると、検索エンジンは、私の検索の状況的な意図がピザを食べるための場所を探すことだと言う考えに基づき、地元のピザ屋へのリンクを検索結果に含もうとする。
このエントリの冒頭で私が言及した問題を解決するためにグーグルが利用しているメソッドがある。検索エンジンがクエリの用語をあまりにも言葉通りに受け取ってしまうことだ。そのため、グーグルは適切な場合、クエリの用語に対する同義語を含むようにしている。こうすることで「car mechanic」の検索が「auto mechanic」に対する結果を表示しない問題を解決してくれるだろう。
グーグルがカテゴリーマッチングをランキングシグナルとして利用している可能性は否定できないが、彼らはこの特許の申請を行った後、さらに良い結果をもたらすその他のアプローチを考案しているだろう。
この記事は、SEO by the Seaに掲載された「How Google May Use Categories as a Search Ranking Factor」を翻訳した内容です。
実際にユーザーとして検索していても(またはSEO業者としてビッグワードとして1ページ目ランクインを狙っていても)検索キーワードによってGoogleの検索結果の傾向がかなり変わるケースがあるように感じます。ビッグワード、ローカル、トレンドワード諸々。。。もちろんここに書かれている内容は1つの特許に過ぎませんし、今日のGoogleは様々な技術をフル活用してより最適(ユーザー&Googleの広告ビジネスにとっても・・)な検索結果を返しているとは思います。
逆に考えると、1サイトオーナーや1SEO業者の数十数百数千の事例でさえ、Googleにとってはごく一部のケースに過ぎないわけですから、余り自身のデータを元に「Googleのアルゴリズムはこうだ!」と信じ込んでしまうのもそろそろ止めにしたいものですね。最大限の努力はしつつ、結果はGoogle次第。それがSEOです。 — SEO Japan
SEO最新情報やセミナー開催のお知らせなど、お役立ち情報を無料でお届けします。