このエントリを読むと、ウェブページ上の見出しの要素およびリストを今までとは異なる観点で見るようになり、SEOのために利用するメリットについて、真剣に考えるようになるだろう。
グーグルは数多くのシグナルを用いて、検索結果の中で表示するページの順位を決めている。その中にはウェブページの質や重要性を計測するものもあれば、検索エンジンの検索ボックスに入力された特定の検索クエリに対するページの関連性のレベルを示唆するシグナルもある。
クエリ内の単語が実際にクエリの検索結果のページに表示されているか否かは、明らかに関連性のシグナルである。ページに複数回登場するようなら、そのページはその特定のクエリに対して、用語が1回しか表示されていないウェブページ、もしくは1回も表示されていないウェブページよりも関連性が高いと見なされる。
特定の一連の用語に対するページの関連性を示唆するファクターには、他にもページに掲載されている用語とどれだけ近いかも含まれる。個別のクエリの用語の数をカウントし、お互いの距離を特定することは容易かもしれないが、ウェブページのフォーマットにおいては、以下のリストに見られるように、用語の間の単語を単純にカウントすることは出来ない:
上記のリストが、あるウェブページですべて表示されていたとしよう。ページの見出しによって明らかにされているように、リストアップされているアイテムはすべてSaturn(土星)に関するものであり、それぞれのリストのアイテムは、意味においては距離に関しての関連性は同等である。たとえ、「Saturn」およびリストのアイテムの間の単語の数を計算した際に、リストアップされているアイテムが、リストの見出しからの見た目の距離は開いていても、関連性には影響しない。
意味的な距離をこのような方法で計算すると、このリストが表示されるページは「Saturn Mass」、「Saturn Volume」、そして、「Saturn Rotation」と言う用語に対しても同等の関連性を持つことになる。
今週付与されたグーグルの特許は、検索エンジンが、リストのようなセマンティックな構造で表示された際の単語の距離を考察し、このような単語を含むクエリにどの程度ページが関連しているのかを特定する仕組みを明らかにしている。
2004年に申請が行われたこの特許を考察することで、検索エンジンが明らかではない方法でウェブページのセマンティックな構造を解釈する仕組みに関するアイデアを得ることが出来るだろう。
文書内の用語の間の意味の距離をベースに文書を格付け
考案: ゲオルゲス R.ハリク モニカ H.ヘンジンガー
委託先 : Google
米国特許: 7,716,216
付与日: 2010年5月11日
申請日: 2010年3月31日
要約
例えばHTMLの文書内の非明示的に定義されたリスト等、文書内の非明示的に定義されたセマンティックな構造を探す手法。セマンティックな構造は、文書内の用語間の距離を計算する際の値として用いられる。
例えば、距離の値は、検索クエリに対する文書の関連性のレベルを示唆するランキングのスコアを決めるために用いられるだろう。
このアプローチの裏側のプロセスの一部には、ページ上のHTMLの構造を検索エンジンが分析し、ページのアイテムのリストをレイアウトするために使われそうな、タイトルや見出し、番号なしリスト(<ul>)、番号つきリスト(<ol>)、ネストした表、ブロック、そして、改行(<br>)のような要素を探すプロセスが含まれる。
ページの見出しは、<h1>のような実際の見出しの要素を利用している可能性もあれば、<font size=16>等の大きなサイズのフォントを利用している可能性もある。そして、その見出しの下に掲載されるテキストは、見出しに属すると見なされる。
要するに、検索エンジンは、見出しに関連するアイテムのリストのようにセマテンティックな意味のある可能性があるページのビジュアル面の構造を見つけ、把握しようと試みているのだ。また、このプロセスは、リストだけではなくその他の重要なセマンティックの構造も探している可能性がある。
この特許は、見出しおよびリストのアイテムには、単語の間の距離について、次のようなルールがある旨を記載している:
そのため、上述のSaturnの例では、「Saturn」と言う用語(リストの見出し)と「Distance」(リストの最後のアイテム)は、たとえ「Days」がリストの一つ目のアイテムであり、「Rotation」がリストの2つ目のアイテムの最初の単語であったとしても「Days」と「Rotation」よりも距離が近いと見なされるのだ。
このグーグルの特許は2004年に申請されたものだが、検索エンジンがリストのようなセマンティックな構造をチェックし、特定のクエリに対して、ページがどれだけ関連しているのかを特定する仕組みを探る上でとても興味深いアイデアを提示している。
見出しとリストに対する見方が変わっただろうか?
この記事は、SEO by the Seaに掲載された「Google Defines Semantic Closeness as a Ranking Signal」を翻訳した内容です。
こんな記事が出ると、これからキーワードが詰め込まれた見出し付きリスト記事が大量の作成されそうですが。。。あくまで1シグナルということで。しかし見出し&リストでこのレベル、しかも2004年に提出された特許ということはまだまだ様々なレベルでGoogleがページの解析を行っていることは間違いなさそうです。 — SEO Japan
SEO最新情報やセミナー開催のお知らせなど、お役立ち情報を無料でお届けします。