前回はグーグルがフレーズベースのインデックスを使って、多くのフレーズがウェブページのコンテンツ内で同時に現れる事実を利用して、ページのランキングを再び行う仕組みに注目した。フレーズを見るとき、固有表現、または特定の人物、場所、物事等を説明する特別な一連のフレーズまで掘り下げる必要がある。そして、どのフレーズが固有表現と同時に起きる傾向があるかを理解することに加え、検索エンジンは、ウィキペディア、フリーベース、メタウェブ、インターネット・ムービー・データベース(IMDB)、そして、様々な地図のデータベース等その他のソースもチェックし、フレーズが実際(もしくは架空)のエンティティを示唆する際に把握する試みを行う可能性がある。
グーグル、ビング、そして、ヤフー!は全てウェブページおよび検索クエリで固有表現を探し、固有表現の認識を活用して、「バラク・オバマが生まれた場所は?」のような質問に答える等の取り組みを行う。
検索エンジンは特性と関連する事実を固有表現に関連させる。また、ローカル検索においては、住所とウェブサイトも関連させる。グーグルが特定のウェブサイトを特定の場所の特定の企業に関連させている仕組みに関しては、2006年に「グーグルのローカル検索に対するオーソリティドキュメント」の中で説明した。
検索エンジンが固有表現を処理する仕組みは、とりわけ次のヤフー!の検索結果にハッキリと反映されている。これは[Justin Timberlake]の検索結果であり、Justin Timberlakeの名前を使った検索の左側のカラムに「related people」と「related movies」が掲載されている:
検索エンジンが認識する固有表現を利用して、検索結果に影響を与える意外な方法も幾つかある。それでは、このSEO最重要特許シリーズの第6弾では、グーグルがブランドを贔屓している証拠として時折指摘されるものの、実際にはもっと大きなインパクトを与えているこの特許を取り上げようと思う。エンティティの検知を介したクエリのリライトがその特許だ。
私はこの特許を「ブランド、企業、そして、その他のエンティティを押し上げる: 検索エンジンのクエリを推測する仕組みがサイトの検索を示唆する」で取り上げていた。グーグルウェブマスターセントラルの公式ブログもこの特許のアプローチのインパクトを「ドメインからより多くの結果を表示する」の中で説明している。
ヤフー!にもこの特許と共通点を多く持つ特許を付与されており、この特許に関しては、ブランドではなくエンティティを: グーグルとヤフー!検索への固有表現の影響の中で紹介した。
マイクロソフトもまた様々な方法で固有表現の認識および知識を利用している。例えば、このシリーズの第3弾では、マイクロソフトがウェブのブロックを言語の特徴で分類している(日本語)仕組みを取り上げている。マイクロソフトに付与された特許で描かれている「言語の特徴」の一つが固有表現である。
分類システムは言語の特徴を使って、ブロックの役割を分類する上で役立てている。なぜなら、ウェブページのディベロッパーは異なる役割を持つブロック内で異なる言語の特徴を利用する傾向があるためだ。例えば、ナビゲーションの役目を持つブロックは、文のない非常に短いフレーズで構成されている可能性が高い。一方、ウェブページの主題のテキストを提供する役目を持つブロックは、複雑な文章で構成されているだろう。また、ウェブページの主題に向けられているブロックは人物、場所、そして、組織等、固有表現を含んでいると見られる。
グーグルのエンティティ検知に関する特許の中では、検索エンジンは検索クエリに固有表現が含まれている際には特定する試みを行い、固有表現に関連するウェブサイトが存在する場合、当該のウェブサイトの結果を検索結果の上位で複数提示する可能性がある。
例えば、[Barack Obama campaign]のように特定の人物名を含む検索では、検索エンジンは同じサイトから複数の結果を表示すると推測される:
[spaceneedle hours]のように特定の場所または史跡を含む検索においても、グーグルは特定のドメインから複数の結果を表示するとみられている:
さらに、[[seo by the sea named entity]のように企業名やブランド名検索クエリでも、固有表現に関連するサイトから複数の結果を表示すると考えられる:
[bill slawski named entity]のように、複数の固有表現が特定のウェブサイトに関連している可能性がある場合、4つの結果が表示されている上の[seo by the sea named entities]のクエリと同じように、複数の結果が表示されると推測される:
[SEO by the Sea]および[Bill Slawski]と言うエンティティを含むクエリに対する結果は(グーグルによると私はエンティティのようだが、恐らく皆さんもエンティティ扱いされているだろう)、同じページを表示するが、順番が若干異なる。グーグルはオーサーシップのマークアップを導入する以前から、私の名前を私のサイトと関連する固有表現と扱っていた。しかし、検索エンジンが特定の人物をウェブで作成したコンテンツに関連させることが可能なオーサーシップのマークアップが、固有表現とウェブサイトの間の関連性をグーグルが見出す上でプラスの効果を与えている可能性はある。
結論
固有表現を含むクエリが、固有表現を持たないクエリとは異なる扱いを受ける点を把握しておくことは、検索ユーザーにとってもSEOにとっても重要であり、また、ヤフー!の[related people]のような検索結果内での特別な表示、もしくは、グーグルでの結果の拡大で(暗示的なサイト検索等)、あるいはその他の様々な方法で紹介してもらえるかもしれない。
私は固有表現、そして、検索エンジンが固有表現を利用する仕組みを過去に何度か取り上げている:
どうやら今週は固有表現に関するエントリが豊作のようであり、ジャスティン・ブリッグズ氏が投稿した「エンティティの検索結果 – 進化を続ける検索」やこのトピックで2部構成のシリーズを作成したデビッド・ハリー氏の「固有表現 SEOに対する関連性」と「SEO & 固有表現 何を学べるのか?」等、素晴らしい記事が幾つか生まれている。
この記事は、SEO by the Seaに掲載された「10 Most Important SEO Patents: Part 6 – Named Entity Detection in Queries」を翻訳した内容です。
SEO最新情報やセミナー開催のお知らせなど、お役立ち情報を無料でお届けします。