SEOが生まれて間もない頃、多くのSEOのコンサルタント達が、検索エンジンは、文書の冒頭に現れる場合、目立つコンテンツとして重要視するだろうと言う考えに基づき、重要且つ有益なコンテンツをページのHTMLの上部に配置するよう強く勧めていた。今でも、テーブルを利用するページに対して、HTMLの中でページのメインのコンテンツをサイドバーナビゲーションの上に移動させる方法を紹介し、「テーブルトリック」に関する情報をサイトで提供している著名なコンサルタントがいる。また、あまり重要ではないコンテンツをビジターが実際に目にするHTMLページの上の方に配置するものの、ページのHTMLでは低くするCSSを使った同様のトリックも存在する。
2003年、マイクロソフト・リサーチ・アジアは、論文「VIPS: ビジョンベースド・ページ・セグメンテーション・アルゴリズム」を発表した。この論文の概要には次のようにこのアプローチの内容が記されている:
この論文では、ビジュアルの描写をベースにした新しいウェブコンテンツの構造の分析を提案している。情報検索、情報抽出、そして、自動ページ適応等、多くのウェブアプリケーションが、この構造からメリットを得ることが出来る。この論文は、ウェブコンテンツの構造を検知するための、自動的なトップダウンのタグツリーにとらわれないアプローチを紹介する。このアプローチは、ユーザーがウェブのレイアウトの構造をビジュアルの認識を基に理解する仕組みをシミュレートしている。その他の既存の手法と比較すると、私達のアプローチは、HTML等の文書の描写に依存せず、HTMLの構造がレイアウトの構造とかけ離れていたとしても問題なく作用する。
マイクロソフトには、VIPSのアプローチを取り上げた特許が付与されており、この特許を重要なSEOの特許 トップ 10にリストアップする方針に私は傾いていた。しかし、何かが足りなかった。この特許は、ページが分割され、異なるパーツがお互いから離れる仕組みを説明しているものの、お互いをどのように区別するのかに関しては描写しておらず、また、検索エンジンがこのようなプロセスを行う理由についても十分な説明が行われているとは言えなかった。
ヘッドレスブラウザが存在していた時代、検索エンジンのクローラーは、ページのHTMLでコンテンツが現れる場所を特定するだけでなく、ブラウザがこのコンテンツを表示する仕組みをシミュレートすることで、コンテンツが実際に表示される場所を把握する力を持っていた。ヤフー!がウェブページのコンテンツを分割し、ページのレイアウトを理解する方法は既に紹介済みだ。また、投稿「ページを分解する: ウェブページの自動分割化がデザインとSEOにもたらすものとは」にも目を通してもらいたい。
グーグルにはページのセグメンテーションプロセスに関する特許が付与されている。この特許が申請されたのは2004年であった。ページのセグメンテーションは、検索エンジンが以前からずっと考慮してきたプロセスの一つである。
例えば、ウェブページのある部分から寄せられたリンクは、その他の部分から寄せられたリンクと異なる重みを持つと言う主張を皆さんも聞いたことがあるのではないだろうか。以下にフッターのリンクは、ページの中央の段落に掲載されているリンクほどのウェイトを持っていない可能性がある点を指摘するマット・カッツ氏の動画を掲載する:
検索エンジンは、このプロセスをさらに進化させ、VIPSの論文で説明されているような、セグメントまたはブロックに分解し、ホワイトペーパーのブロックレベルのリンク分析で取り上げられているようにそれぞれのブロックに対して1つずつページランクを算出する可能性がある。
また、ページセグメンテーションに関するグーグルのこの特許は、ページのインデックスおよびランキングにセグメンテーションが用いられる仕組みについても触れているため、このシリーズで取り上げたくなった。
しかし、マイクロソフトの特許、「ウェブのブロックの役割を言葉の特徴を基に分類」もまた注目に値する特許と言えるだろう。ウェブページで見つかったブロックをブロックに関連する特徴を基に分類する仕組みが描写されているためだ。そのため、SEOをさらに深く理解する上で役に立つ、読む価値のある重要な10点のSEOの特許として私は挙げている。
この特許は、検索エンジンがページで見つけたブロックの違いを把握し、当該のページでコンテンツをインデックスし、分析し、そして、分類するために用いる仕組みを説明している。例えば、ページの上部またはページの左側のサイドバーに表示されている、サイトの別のページにリンクを張る全て短いフレーズで構成されているセクションは、当該のページのメインのナビゲーションであると考えられるだろう。
ページの中央に表示され、句読点を含み、各センテンスの一文字目が大文字で表示されている完全なセンテンスを含むセクションは、ページのメインのコンテンツである可能性があり、このコンテンツはページをインデックスする際はテーブルやCSSのトリックを必要とせず、より重要視されるべきである。
私は検索結果を改善するために検索エンジンがウェブページ内のブロックの特徴を特定する仕組みの中でこの特許を詳しく説明しており、この投稿にはその他のセグメンテーションに関する投稿へのリンクを幾つか用意している。
異なるトピックに関する複数の投稿を掲載するニュースのページやブログのホームページのように、ページが複数のトピックをメインのコンテンツのセクションで網羅しており、単語が異なるブロックやセグメントで表示されている場合、検索エンジンは特定の複数の単語のクエリに対して、当該のページを上位にランクインさせないように心掛ける。この課題に対しても、ページのセグメンテーションが解決に役立つと見られている。
検索エンジンがページ、そして、ページの異なるセクションでで見つけたコンテンツを理解するための仕組みを把握することは、SEOを実施する上で絶対に欠かせない。
この記事は、SEO by the Seaに掲載された「10 Most Important SEO Patents: Part 3 – Classifying Web Blocks with Linguistic Features」を翻訳した内容です。
SEO最新情報やセミナー開催のお知らせなど、お役立ち情報を無料でお届けします。