先週の金曜日、SEOmoz恒例のホワイトボードフライデーでランド・フィッシュキン氏が発表した「予想: 瀕死のアンカーテキスト: 共同引用は後継者になれるのか?」は、評判が高く、また、示唆に富む素晴らしいプレゼンであった。この投稿で、フィッシュキン氏は、一部の不自然な検索結果がきっかけとなり、グーグルが結果のランク付けを行う仕組みを疑問視した経緯を説明していた。
私は特定のクエリに対する検索結果の分析を行い、理解を深める取り組みが大好きだ。特に不可解な結果の場合は尚更好奇心が湧く。フィッシュキン氏が投稿したこのプレゼンは、グーグルが一部の検索結果をランク付けする仕組みに関する議論にとって、格好のネタになるはずである。この点に関しては、フィッシュキン氏に感謝している。
ランド・フィッシュキン氏はプレゼンの中で、次のように指摘していた:
こういった用語はサイトの内容を割と明確に示しているため、上述したページが上位にランクインするのは当然のように思えるが、ページ内のコンテンツを通して、これらの用語に対する最適化が意図的に行われているようには見えない。
アンカーテキストは終わり?
多くのページは、一部のクエリの用語に対して、たとえ用語が実際にページで使われていなくても、良いランクを獲得する傾向が見られる。当該のページへ向かうリンクのアンカーテキストがこの用語を含むことが原因であり、これはグーグルが長年に渡って実施してきたシステムの一部である。
しかし、フィッシュキン氏が言及した検索結果を調べてみた結果、例に挙げられたページがいくらか(と言うよりも中途半端に)用語に対して最適化を試みているように見えた。
例えば、Open Site Explorerに対するスニペットの中には「back link analysis」がハイライトされており、これはページ上のイメージに対するaltテキストから採取されている。
[cell phone ratings]の検索でのConsumerreportsのスニペットでは、ページのタイトルで「cell phones」と「reviews」がハイライトされている(これはhttps://www.consumerreports.org/cro/cell-phones-services.htmであり、グーグルはURLではなく、検索結果内にこのページのブレッドクラムを表示している)。また、次のようにこの用語とハイライトされた用語の一つの類義語を示す情報をスニペットとして表示している:
[manufacturing directory]でのThomasnetのホームページに対するスニペットでも、フィッシュキン氏が挙げていたクエリの用語の一部がハイライトされていた。その一つである「business」においては、グーグルが「manufacturing」の類義語としてこの文脈の中で利用している可能性がある:
用語「directory」はこのページにもHTMLコードにも掲載されていないが、グーグルが過去にこのサイトをディレクトリと分類したことがないなら、そろそろグーグルが見直しを行う時期に差し掛かっている可能性はある。また、サイトが「manufacturing directory」である点は明白である。グーグルは、クエリのカテゴリとページのカテゴリがマッチする際にランク付けを再び行い、マッチングに応じて結果を押し上げるシステムの特許を公表している(後ほど詳しく紹介する)。
しかし、今回はページに何らかの方法でこういった用語や類義語が表示されている事実を敢えて無視する。
特定の用語に対してページが最適化されているか否かに関わらず、たとえ用語がページには表示されていなくても、特定の用語を使ったハイパーテキストの関連性も用語に対するランキングを押し上げる力を持つ。今までは、用語がページに表示されていない場合、検索でページのキャッシュされたコピーを見れば、ページがクエリの用語に対してランク付けされているかどうかが分かった。上述したページのキャッシュ版からはこの点は分からなかったが、グーグルがこの情報の公開を差し控えている可能性もある。
例えば、アドビリーダーをダウンロードするためのページが、用語[click here]において、このフレーズをページで用いることなく長年に渡って1位を獲得していたが([clicking]は用いている)、ウェブには、アンカーテキストで[click here]を用いた多くのリンクがこのページに向けられている。現在は2位だが、それでも十分に素晴らしい成績である。
ランド・フィッシュキン氏が指摘した、ページ上にクエリの用語が実質的に欠けている点、そして、用語に対して上位にランクインしている事実を考慮すると、このアンカーテキストを用いたリンクが上述したページへ多数向けられているなら、アンカーテキストの関連性が今も尚有力であるように思える。
しかし、たとえThomasnetがアンカーテキスト[manufacturing directory]を用いたリンクを質の高いページから獲得していても、CellphoneサービスのConsumer Reportsに[cell phone ratings]のフレーズを用いたリンクが向けられていても、あるいは、Open Site Explorerにアンカーテキスト[back link anlysis]を用いたリンクが向けられている可能性は高くても、実際にはなかったと仮定して話を進める。
フィッシュキン氏は、被リンク分析(たとえばOpen Site Explorerを使って)を実施して、consumerreportsやThomasnetやOpen Site Explorerに向かう、アンカーテキストで上述した用語が使われたリンクの本数を調べたかどうかを言及していない。この分析を行っていれば、アンカーテキストが終わったかどうかに関するこの疑問に答える上で、また、こういったフレーズが用いられたアンカーテキストがページに多数向けられていなかった場合のアンカーテキストの効果に関する考えを変える上で役に立ったのかもしれない。
とりあえず、クエリの用語の一部がページに利用されていた点(基本的に用語に対して最適化はあまり行われていなかった)、そして、これらのページに向かうアンカーテキストがランクに影響を与えていたか否かは度外視しよう。
共引用?それとも共起?
さらに掘り下げて考察する前にハッキリしておきたいことがある。この現象を説明するためにフィッシュキン氏が使った用語を見て、自分の考えとは相容れないことに私は気づいた。何かを共に引用すると言うことは、何かを一緒に引用すると言うことである。フィッシュキン氏は引用について説明していたわけではなく、用語が同じページに表示される傾向があるかないかを指摘しようとしていた。しかし、引用はリンクではない場合もあり、グーグルスカラーを使って検索を行えば、文書内でその他の文書に対する脚注や引用を多く含む科学文書を多数見つけることが出来るはずだ。このようなタイプの学術的な引用に基づいてページンランクが決まることは容易に想像できる。実際に、多くのケースで利用されている。
ジム・ボイキン氏は、共引用を2006年にランキングの要因になる可能性があるとブログの投稿「共同引用 ? SEOに影響を与える仕組み」で指摘していたが、ここでは全く異なるコンセプトが描かれていた。ボイキン氏は、第三者のサイトによって同じようなコンテンツを持つ異なるページの引用が行われ、このような共引用が行われる回数が多ければ多いほど、リンクを向けられるページが似ていると考えられる可能性があると述べていた。
フッシュキン氏は、指摘した上位にランクインしているページ、そして、上位にランクインした対象の用語が同じページ上で頻繁に同時に発生(共起)する傾向がある点を説明している。
そのため、フィッシュキン氏は、共起について言及しているように思える。ワードが同じページの多くで共起している仕組みに対する指摘は、グーグルのフレーズベースのインデックスによるアプローチ(後ほど詳しく取り上げる)を思い起こさせる。共起はフレーズベースのインデックスの重要な要素であり、一部の用語の“関連度”は共起を基に決められる可能性がある。そのため、フィッシュキン氏には本当は共起と言う言葉を使ってもらいたかった。
フレーズベースのインデックスの特許では、関連する用語を用いるアンカーテキストは、関係の強さに応じて、異なる重要度をもたらす。例えば、sail boat rudder(帆船の舵)に関するページにアンカーテキスト[doggie treats]を用いてリンクを張った場合、このハイパーテキストの関連性は、[sail boats]や[rudder]等のアンカーテキストを用いたハイパーテキストの関連性とは異なる(ちなみに私の知る限り、グーグルが「グーグル爆弾」を解決するために用いることが出来るシステムは、フレーズベースのインデックスの特許しかない)。
それでは、一見しただけでは用語に対して関連しているとは思えないものの、用語に対して上位にランクインさせる可能性がある再格付けのアプローチを少し見ていこう。
従来の格付けアプローチに加わる、再格付けのアルゴリズム
ランド・フィッシュキン氏が挙げた例は、ページで利用されているワードとコンテンツに注目して、情報検索ランキングスコアを作成し、ページランク等のリンク分析アプローチと組み合わせてページの重要性のスコアとして用いる従来の格付けアプローチとは、確かに異なるように見える。
クエリに対するページのランクの多くは、このような組み合わせに基づいて決められていることが多い。ただし、このようなオリジナルのランキングメソッドが、一部のページのランクを押し上げ、一部のページのランクを押し下げる再格付けのアプローチの影響を受ける状況を私は多くの投稿で説明している。
その一部を以下に掲載する:
また、その他の再格付けのアプローチを取り上げている特許や論文に掲載されている他のメソッドに関する記事も数多く投稿している。新しさの影響を受ける結果、ソーシャルシグナルの影響を受ける結果、そして、クエリのカテゴリがウェブページのカテゴリとマッチした場合、当該のページのランクが押し上げられる再格付け等も、この再格付けシリーズにそろそろ加えるべきなのかもしれない。
再格付けアプローチ – ローカライズされた自然な結果
歯科医院やホスピス等、特定の競争の激しいクエリの用語に対するローカルの結果を検索結果の1ページ目に挿入する、ローカライズされた自然な結果は、再格付けのアプローチの一つである。このようなローカルのページは、その他の周りの結果ほど(ページランクを部分的にまたは全体にベースとする場合)関連しているわけでも、重要なわけではないかもしれないが、- クエリに地理的な用語が用いられていない場合でも – このような検索を実行するユーザーのロケーションにおいては関連性があるため、ランキングで押し上げられる。
私が住んでいるバージニア州で[hospital] を検索すると、グーグルは地域のマップを一番上に表示し、次にウィキペディアのエントリ、そして、その下に近郊の病院の結果を表示する。この病院のページは、クエリ[hospital]で上位にランクインしている他のページほどランキングは高くはないものの、私が検索を行った場所から近く、また、この用語に対する自然なランクが割と高いため、再格付けのアプローチを介して、上位に押し上げられたのだ。結果にリストアップされていな病院が町にはあるが、ローカライズされた自然のアルゴリズムは、グーグルのローカル検索を動かすアルゴリズムとはそもそも異なる。
その他の再格付けのアプローチ
フレーズベースのインデックス & アンカーテキストの重要度
フレーズベースのインデックスでは、すべてのアンカーテキストが同じ重要度を運ぶのではなく、また、グーグルのフレーズベースのインデックスに関する特許は、アンカーテキストの重要度が、リンクが“関連する”フレーズを使っているかどうかで決められる可能性がある仕組みを描いている。関連するフレーズは、特定のクエリに対して返されるフレーズが共起する傾向のある文書で見つかる。フレーズの関連性が高ければ高いほど、与えるハイパーテキストの関連性も高まる。
それでは、グーグルの特許「情報検索システムでのフレーズベースのインデックス」と「b) アンカーフレーズをベースとした文書の格付け」のセクションを詳しく見ていこう。
リーズナブルサーファーモデル
リーズナブルサーファーモデルもまた、ページの場所(ブログのコメントよりもメインのコンテンツが重要視される)、どのように提示されているか(フォントのサイズ、色、スタイル)、掲載されているページのコンテンツへの関連性およびリンクによってターゲットにされているページのコンテンツへの関連性を含む、リンクに関連する様々な特徴の組み合わせに応じて、リンクの重要度が決められる仕組みを示している。
私はこの特許を「Googleがリンクの価値を決定する34の要素」(日本語)で詳しく説明している。当該の特許は: ユーザーの行動および特徴のデータに基づいて文書をランク付けである。
この特許は、ページランクと言う用語を用いているわけではないが、「リーズナブルサーファーモデル」と言うフレーズは、ローレンス・ペイジ氏がかつてページランクの仕組みを説明するために使った「ランダムサーファーモデル」にかけていることは明白である。「ページランク」の代わりにこの特許は、リンクがあるページから別のページにもたらすランキングの“重さ”の量に言及しており、アンカーテキストの利用がこの重さに影響を与える可能性のある例を挙げている。
この特許は、リンクに関連する特徴を複数を取り上げているが、以下に、どのテキストがリンク内で利用されているか、そして、どのように分析されるかに関連する特徴を挙げていく。
リーズナブルサーファーモデルでは、リンクの関連性の価値は、リンクに用いられているテキストだけではなく、当該のテキストがページに表示されているテキストとの関連度、そして、リンクが向けられているページのテキストとの関連度に応じて、上下する。また、ページの表示される場所によっても、上下する可能性がある。
ここで取り上げられているのは、ページランクに関する重さのみなのだろうか、あるいは、ハイパーテキストの関連性の重さも含まれているのだろうか?リンク内の実際のテキスト、そして、ソースのページおよびターゲットのページのテキストが重要視されている点を考えると、双方の重さが影響を受ける可能性がある。
カテゴリをベースとしたランク付け
グーグルはウェブページ、そして、クエリの用語にカテゴリを割り当てているかもしれない。カテゴリが与えられたクエリに対する検索結果が返される際に、このカテゴリに一致するウェブページは、検索結果で押し上げられる可能性がある。例えば、クエリ[manufacturing directory]は、[directory]カテゴリ、さらには[business directory]のカテゴリに含まれていると思われる。また、Thomasnet.comのホームページが同じカテゴリに振り分けられていると推測される。
カテゴリのアルゴリズムをベースとした再格付けが利用されているなら、Thomasnetのページは検索結果で押し上げられているはずである。次のエントリで詳細を確認してもらいたい: グーグルがカテゴリを検索ランク付けの要素として利用する仕組み
エンティティの関連性
また、ブランド(エンティティのタイプの一つ)および利用された用語に関連するエンティティの関連性やカテゴリの関連性、もしくはその両方が存在すると思われる。これは情報検索スコアとページランクのスコアに関わらず、検索結果で特定のページを押し上げる要素の一つである。グーグルがエンティティの関連性に応じて検索結果を再びランク付けするアプローチに関しては、SEOの最重要特許ベスト10 その 6 ? 検索キーワード中の固有表現を検知(日本語)で詳細を確認してもらいたい。
ConsumerReports.org、Thomasnet.com、そして、Open Site Explorerはエンティティと考慮され、また、ランド・フィッシュキン氏のプレゼンで用いられたクエリの用語は、グーグルのエンティティへのアプローチによって、こういった特定のエンティティに関連していると考えられたのかもしれない。
類義語とランキング
グーグルは、類義語、そして、情報のニーズを満たす点に関する特許を数多く抱えている。こういった特許は、ある用語に対して上位にランク付けされているページは、その類義語に対しても、または、同等な情報のニーズを満たす用語に対しても上位にランク付けされると推測される仕組みを描いている。事実、検索[manufacturing directory]におけるThomasnet.comの上のスニペット内で、ワード[business]が強調されている。
以前、グーグルは、類義語が結果の関連性を判断するために用いられる際は、検索結果内で検索エンジンのユーザーに向けて、ページのタイトルやスニペットで表示されている場合、用語をハイライトすると指摘していた。「コンピュータが言葉を理解しやすくするためにを参考にしてもらいたい。
この投稿でグーグルは次のように説明している:
過去、グーグルは、- 例えば、ワード[pictures]に対する検索ではワード[picture]のように語幹のバリエーション等の類義語をボールド体で表示していた。これからは、たとえスペルはもともとのワードとは大幅に違っていても、グーグルのアルゴリズムが同じ意味であることを確信したワードにもこのアプローチを延長する。これは、とりわけ元々の検索用語を含まない場合、結果が表示された理由を理解する上で役に立つ。[pictures developed with coffee]の例では、1つ目の結果のタイトルにワード[photos]が含まれている:
[manufacturing directory]に対する検索で、ワード[business]がThomasnetのスニペットで太字で表記されていたため、ページにワード[business]が含まれている点に基づき、この用語に対して部分的に関連性があると判断されたと思える。
結論
リーズナブルサーファーの特許とフレーズベースのインデックスに関する特許を参考にすると、アンカーテキストがもたらすハイパーテキストの関連性は、大勢の人達が考えているような仕組みで重みが与えられているとは限らない。
特定のアンカーテキストを利用するすべてのリンクが同じ重さを持つのではなく、ページの発見につながったクエリに関連するアンカーテキストを持つリンクは、関連性のないアンカーテキストよりも重要視され、上位にランクインする上で効果があるかもしれないのだ。
フレーズ[business]がクエリ[manufacturing directory]で上位にランクインしている多くのページでも共起(共に発生)している可能性があり、そのため、関連性が高い用語と考慮されたとしてもおかしくはない。つまり、[business]あるいは[business directory]がアンカーテキストに含まれるリンクがThomasnet.com等のサイトに向けられているなら、このフレーズベースのインデックスの下では、クエリ[manufacturing directory]に関連するページを判断する票として数えられるのだ。
先程も申し上げた通り、グーグルは再格付けのアプローチに関する特許を数多く公表している。私自身、フィッシュキン氏が指摘したページが上位にランクインする上で貢献した可能性のあるその他のアプローチを記事で取り上げたことがあるのかもしれない。
共引用に関する同氏の指摘は、私には共起、要するに、用語が頻繁に同じページに共に生じる傾向がある仕組みを説明しているように思えてならない(その他のページを引用するため、リンクは引用であり、ランド・フィッシュキン氏は、こういった用語が、必ずしもリンクとしてではなく、共にページに現れる傾向があると指摘していた)。
従って、アンカーテキストが終わったとも、フィッシュキン氏のプレゼンによって、それが証明されたとも思えない。しかし、大勢の人達が考えていた仕組みとは若干違っていた点は否めないのかもしれない。
この問題を提起したランド・フィッシュキン氏に感謝している。奇妙な検索結果を理解する試みにはいつも熱中してしまう。
それでは皆さん、良い感謝祭の休日を。
この記事は、SEO by the Seaに掲載された「Not All Anchor Text is Equal and other Co-Citation Observations」を翻訳した内容です。
SEO最新情報やセミナー開催のお知らせなど、お役立ち情報を無料でお届けします。