ページランクは、誰かがウェブの利用をあるページで始め、ランダムにページで見つけたリンクをクリックする、もしくは退屈し、無作為に別のページへテレポート(正式なテクニカルサーチエンジニアの専門用語)して、あるページに行き着く可能性を表す数値である。
ラリー・ペイジ氏は、リンクをクリックする人物を“ランダムサーファー”と名付けている。しかし、大半のユーザーは無作為に行動しているわけではない。どこかの街角に立ち、どこかに適当に向かうわけではない(ただし、次のような標識を見たら、私はこのような行動を取ることがある)。
グーグルの従業員が真夜中に起き、ページランク(日本語)がうまく機能していないかもしれないと悩む様子を想像してもらいたい。もしかしたら、ページ上でリンクが掲載されている場所に注目するべきなのかもしれない等、様々な考えが彼らの脳裏をよぎる。
これはグーグルの特許「ユーザーの行動および/または特徴のデータを基に文書を格付け」を読んだ時に私が考えたシナリオである。この特許は、無作為さをある程度なくし、異なるモデルのサーファーを紹介している。
2008年、ヤフー!が独自の検索エンジンを導入した際、同社のプリヤンク・ガーグ氏はインタビューの中で、エリック・エンゲ氏にヤフー!がリンクを処理する仕組みを説明していた:
ページの底にある関連性のない、ユーザーにとってそれほど価値があるわけではないリンクは、ユーザーエクスペリエンスに価値をもたらさないため、ランキングにおいては、これらのリンクは受け付けない。このようなリンクはクロールによる発見には役に立つものの、格付けには貢献しない。
グーグルも同じことをしていたのだろうか?
2009年に投稿したページランクスカルピングに関するエントリで、グーグルのマット・カッツ氏は、次の免責条項を加えていた:
免責条項: 2000年に私がグーグルに入社していたことは確かだが、初期のページランクの論文に記載されているリンク計算を超える高度な計算が既に行われていた。グーグルがリンク分析の革新を終えたと考えているなら、その推測は誤っている。
今でもページランクと呼んでいるが、グーグルのリンクを基に評判を計算する力は年を追うごとに大きく進歩している。「初期のページランク」の枠組みでエントリを綴っていくが、これが完璧な例えではない点を覚えておいてもらいたい。
次に、グーグルがページで見つけた全てのリンクに同じ量のページランクを与える代わりに、それぞれのリンクに関連する様々な特徴に注目し、詳細な分析を行った後、異なる量のページランクを与える仕組みを想像してもらいたい。
「Googleがリンクの価値を決定する34の要素」(日本語)の中で私が詳しく説明した、リーズナブルサーファーモデルを立証する特許は、ページ上のリンクの場所にだけ注目して与えるページランクを計測しているわけではないと示唆している。
リーズナブルサーファーモデルは、リンクが異なる色で作られていようが、異なるフォントで作られていようが、大きいフォントで作られていようが、ボールド体で作られていようが、下線が引かれていようが、もしくは何らかの別の形で装飾されていようが、リンクのテキストと周りのテキストとの関連性における強調度だけを考慮して、そのリンクを通して渡されるページランクの量を増やすかどうかを決めているわけではない。
また、リーズナブルサーファーモデルは、リンクと関連する単語が幾つあるのか、どんな単語が使われているのか、単語がどの程度営利を目的にしているか等、多くの特徴にも注目する。
そのため、地域のお祭りの一環として行われるパイの早食い競争に関するページで、リンクがメインのコンテンツの上部近くに掲載され、ボールド体で「cheap nfl jerseys」(安いNFLのユニフォーム)と言うアンカーテキストが用いられている場合、リーズナブルサーファーモデルのアルゴリズムは、たとえこのリンクが強調され、ページの重要な場所でその他のテキストから際立っているとしても、リンクのテキストはページのその他のコンテンツとは全く関係がなく、このテキストが非常に営利を意図していると判定する可能性がある。
このページを見て地域のお祭りについて学ぶ人達の多くは、このリンクをクリックする可能性が低いと言う判断は妥当である。従って、ページランクをほとんど与えるべきではないのだ。
私がこの特許を重要なSEOの特許のベスト10入りさせた理由をこれから説明していく。
まず、アルゴリズムが、推測および推測を支援するモデルが時間の経過と共に変化する際に、検索エンジンがもたらす経験および追加の判断を基に修正される仕組みを見事に描かれているためだ。
また、グーグルが同じページ上の異なるリンクに同じ量のページランクを与えていなかった点はここ数年で明白になり、そして、先程紹介した、マット・カッツ氏による主張のように、ページランクは初期の段階においても進歩していたと言う見解を私達は得ていたものの、検索エンジンがページランクを異なる形式で計算している仕組みをグーグル自身が指摘する材料が今までなかった点も理由の一つである。
このリーズナブルサーファーの特許は2004年に申請されていたが、2010年に付与されるまで公開されていなかった。この特許を読んでいる際、何度も私は「なるほど、そういうことか。これで多くの謎が解けた」と呟いていた。
ランダムサーファーモデルを含む、ページランクのアルゴリズムが、ユーザー達が実際にウェブを利用する仕組みを反映していないとして、多くの人々が妥当な批判を展開してきた。
出来るだけ簡潔にまとめてみよう。リーズナブルサーファーモデルは、ユーザーが最もクリックしそうなページ上のリンクを見極める上で役に立つ様々な要素に注目し、このリンクに最大のページランクを与えることで、このデメリットを改善している。繰り返すが、グーグルは継続的にページランクの仕組みを進化させている可能性が高く、以前よりも今の方が遥かに妥当な取り組みが行われているだろう。
この記事は、SEO by the Seaに掲載された「10 Most Important SEO Patents: Part 4 – PageRank Meets the Reasonable Surfer」を翻訳した内容です。
ページ上のリンクの掲載箇所、記述方法ももちろんですが、ページコンテンツとの関連性まで見ている可能性があるんですね。このアルゴリズムが検索エンジンのリンク評価にある程度影響を及ぼしていると考えれば、例えばテーマ性関係なくフッターやサイドメニューにリンクを並べることは、関連性のあるページのメインコンテンツ部分に設置したリンクより、SEO的にも効果が無いということになります。SEOを意識した外部リンクやサテライトサイト構築をどのようにすべきかということも自然と見えてきますよね。もちろんその労力は倍増するわけですが・・・汗 Googleにとって見れば単純な外部リンクSEOによる検索結果操作を排除することにもつながるわけですし、検索エンジンにとってもSEO業者にとっても、この特許は非常に重要な技術の1つであることが改めて理解できました。 — SEO Japan
SEO最新情報やセミナー開催のお知らせなど、お役立ち情報を無料でお届けします。