グーグルに一連のキーワードを入力すると、検索エンジンは入力されたキーワードを含むすべてのページを探す試みを行い、関連性スコアと重要度のスコアの組み合わせに基づいて並べられた一連の結果を返す。しかし、このような検索に対して返される可能性のあるページの多くが、クエリの用語に関連するトピックに対してあまりマッチしていない可能性がある。あるいは、スパムのページの可能性もある。
2006年に申請され、本日付与されたグーグルの特許によると、コンピュータゲーム、映画、そして、音楽等のトピックに対するウェブページの約90%がスパムのようだ。この類のページは「検索エンジンのトラフィックを誤った方向に導く」ためだけに存在する。この特許には、このようなページが通常「関心のあるトピック」とは関係なく、ビジターにポルノ、ソフトウェア、あるいは金融商品等の製品を買わせようとしている点が描かれている。
この特許は、ウェブスパムを取り除くため、検索エンジンがユーザー行動のデータに基づいて文書を識別するために用いる自動プロセスを紹介している。
このプロセスの裏側には複数のステップがあるものの、特定のトピックに関連する「シード」クエリの数を特定することから全てが始まる。クエリは検索エンジンで検索され、これらのクエリの結果として表示されるページは、共通の特徴に対する分析が行われる。
例えば、これらの文書のうちの特定の上位の文書内に表示される単語は、特定のn-gram、または単語のコンビネーションがどれぐらいの頻繁で文書内に表示されるのかを確認するために、分析される可能性がある。「n-gram」は、2つの単語の組み合わせ(bi-grams)、または、3つの単語の組み合わせ(tri-grams)、もしくはさらに大きな組み合わせ等、異なる長さの単語の連続した組み合わせの可能性もある。このような単語の組み合わせは、「The quick brown fox jumps over the lazy dog」等のフレーズから取り出され、以下のように表示される。これはtri-gramsの例である:
ページ上の単語のその他の特徴として、特定の単語がページに表示される頻度、そして、同じ単語もしくは同じ複数の単語を含むその他のページに表示される頻度を比較するものもある。
これらの特徴および同様の特徴は、ウェブページに表示される単語を基にウェブページを分類するために利用される可能性がある。そして、これらの文書に注釈を付けて、分類に関する情報がウェブページと関連させるために用いられることも考えられる。
クエリに対するトピックの情報は、ページが以下の項目に当てはまるかどうかを特定するため、検索結果に表示されるページに対する分類の情報と比較される:
一部のページはクエリ内で用いられているキーワードを含むかもしれないが、だからと言って、必ずしもこれらのページがクエリ自体と同じトピックと言うことにはならない。そのため、この特許は、ユーザーの入力した情報もまた判断材料に用いられると説明している:
クリックスルー率 – 特定のページがクエリに対して検索結果で選択されている頻度 対 これらのページが当該のクエリに対して表示される頻度。
クリックの時間 – ユーザーが検索エンジンで見つけた後、当該のページを訪問する際にそのページにとどまる時間。
その他の不特定の関連するナビゲーションの行動もまた、ページがユーザー行動に基づき文書に与えられた分類と関連しているかどうかを判断するために用いられる可能性がある。
トピックをベースにした分類、そして、クリックの情報の組み合わせは、ページがトピックと一致しているか、もしくはトピックから外れているか、あるいはスパムかどうかを特定するために用いられる。トピックに一致する文書は検索結果でプッシュされ、一方、トピックから外れている文書やスパムの文書はランキングが下げられるか、あるいは検索結果から削除される。
特許の情報:
ユーザーの入力した情報を基に文書を分類するメソッドおよび装置
考案: Jun Wu、Zhengzhu Feng、Quji Guo、Zhe Qian
付与先: Google
米国特許出願番号:7,769,751
公開日: 2010年8月3日
出願日: 2006年1月17日
要約
この特許の実現すると、自動的に文書(ウェブページ等)をユーザーの入力した情報を基に分類するシステムが完成する。稼働中、このシステムは、一連の“分類された”文書を取得する。この文書は特定のトピックに関連しているとして分類されている。また、このシステムは特定のトピックに関連するクエリを取得する。これらのクエリは、「クエリの結果」を生成する。このクエリの結果によって、ユーザーはクエリに関連する文書にアクセスすることが可能になる。
このクエリはさらに「クリック情報」を含む。この情報は一人のユーザーもしくは複数名のユーザーがクエリの結果にアクセスした経緯を特定する。このシステムはこのクリック情報を使って、一連の分類された文書の中から、特定のトピックと関連していない文書、またはトピックから外れている文書を特定するために用いられる。このような文書が特定されると、システムは特定された文書がオフトピック/スパムと見なされるように、これらの文書を移動し、そして、一連の分類された文書から当該の文書を削除する。
結論
この特許は元々2006年に出願されており、グーグルが検索結果に表示されるページがスパムかどうか、もしくは一連のクエリの裏側にあるトピックに関連するかどうかを特定するための試みを説明しているが、グーグルがウェブスパムを除去するために発見したアプローチは他にも存在する可能性が高い。
検索エンジンが利用している可能性がある、スパムのページを特定する別のアプローチが、グーグルのフレーズベースのインデックスプロセスであり、この件については、2006年に「フレーズベースの情報検索およびスパムの検知」の中で説明した。このエントリで説明したプロセスの中には、この特許で説明されているクリックスルーやクリックの時間等のユーザー行動のデータは含まれていないが、実際に用いられていても不思議はない。
残念ながら、検索結果には大量のウェブスパムがいまだに存在している。しかし、この特許で紹介されているようなアプローチが、ページおよびクエリの分類とユーザー行動のデータを併用することで、かつて私たちが目にしていたスパムの一部を除去する上で役に立っている可能性はある。ウェブスパムチームのトップ、グーグルのマット・カッツ氏が先日ブログのビジターに来年グーグルに取り組んでもらいたいウェブスパムのプロジェクトを選んで欲しいとお願いしていた。
マット・カッツ氏に寄せられた大量のレスポンス、そして、これらのレスポンスの中でウェブスパムと判断された各種の問題を考慮すると、ウェブスパムの問題が解決には程遠く、そして、ウェブスパムの定義の中には、トピックには関連しているものの、質がかなり低いウェブページのコンテンツも含まれる可能性がある。
この記事は、SEO by the Seaに掲載された「How Google Might Fight Web Spam Based upon Classifications and Click Data」を翻訳した内容です。
コンテンツの内容は当然としても、検索結果のクリック率やクリック後の時間もスパム排除に役立ているんですね。こういう推測は前からありましたが、特許まで取っているところを見ると、Googleのスパム対策も相当進化していることは間違いなさそうです。SEO業者は大変だ。。。? — SEO Japan
SEO最新情報やセミナー開催のお知らせなど、お役立ち情報を無料でお届けします。