他のサイトからコンテンツをすくい取るウェブスパム、そして、コンテンツファームの質の低いコンテンツのせいでグーグルがあまりに役に立たなくなっている点を指摘するニュースのオピニオン記事やブログのエントリが、ここ数ヶ月の間に急増している。グーグルのウェブスパム部門を引っ張るマット・カッツ氏は、この手のページが検索結果で上位にランクインしないようにするためのグーグルの新しい取り組みを発表することで、このような批判に応じている。2011年1月21日、グーグルの公式ブログで、カッツ氏は次のように述べていた:
ここ数ヶ月の間、グーグルは規模および鮮度を高めてきた。当然ながら、その間、多くの良質なコンテンツだけではなく、スパムもインデックスしてきた。この難題に対処するため、先日、グーグルは、スパムのオンページのコンテンツが上位にライクインしづらくなるように、文書レベルの分類子を改めた。
新しい分類子は、個別のウェブページで、ジャンクに他ならない自動化された自己宣伝的なブログのコメントによく見られるようなフレーズ、つまり繰り返されるスパム感丸出しの用語を特定する能力に長けている。
マット・カッツ – グーグル検索および検索エンジンスパム
このエントリの「文書レベルの分類子の改善」に関するセクションに辿りついた時、私は「カッツ氏が意味する文書レベルの分類子とは何か、そして、検索結果に表示されるスパムの量をどのように減らすのか」考えてみた。
文書レベルの分類子とは何か、そして、その仕組みについて知識を得るため、私はグーグルの特許を掘り起こし、以前取り上げたことのない文書レベルの分類子に具体的に言及する特許の例を見つけることが出来るか試してみた。
すると、文書レベルの分類子を使って、ウェブページで使われている言語を理解する方法に関する特許が見つかった:
確率的な分析を介して言語の属性を特定
考案: Alexander Franz、Brian Milch、Eric Jackson、Jenny Zhou、Benjamin Diament
付与先: Google
米国特許申請番号: 7,386,438
付与日: 2008年6月10日
申請日: 2003年8月4日
概要
言語の属性を確率的な分析を通して特定するシステムとメソッドを説明する。一連の言語のクラスおよび複数のトレーニングの文書が定義され、それぞれの言語のクラスが言語および文字セットのコードを特定する。それぞれのトレーニング文書に存在する1つ、もしくは複数の文書の特性の発生に対する評価が行われる。
それぞれの言語クラスに対して、言語クラスの存在が条件とされている文書の特性のセットの確率が算出される。各トレーニング文書内のバイトの存在が評価される。それぞれの言語クラスに対して、言語クラスの発生に必要なバイトの発生の確率が算出される。
文書レベルの分類子
文書レベルの分類子は、ページ上で見つかる複数の属性を確認して、当該のページに対する分類に関する確率を計算するプログラムである。言語の属性の場合、このような属性には、次のような文字セットや言語のメタタグの確認が含まれている可能性がある:
<head><meta charset=”iso-latin-1″> <META LANG-=”fr”></HEAD>
しかし、この特許は、言語および文字セットのメタタグは滅多にページには現れず、現れた場合も誤っていることが多いと指摘している。
さらに、検索エンジンは、ページのドメインが特定のトップレベルのカントリーコードを利用しているか否かなど、その他の手掛かりを探して、ページの言語を特定する可能性もあるようだ。例えば、「.es」ドメインのサイトは、スペインのウェブサイトであり、スペイン語が使われていると推測される。
また、この特許は、このような特徴を確認するアプローチを採用しているが、ページ上のテキストをnグラムに割ったり、「n」ワード数の単語のグループ分けを行う、テキスト分析のアプローチも利用しているようだ。この特許では、3ワードが提案されている。
そのため、このシステムが、どの言語が使われているかを識別するためにこのページをチェックする場合、まず、このページの1行目を確認し、次にnグラム、つまり3ワードの長さに分けていくだろう。試してみよう。1行目を3ワードに分けていくと次のようになる:
There have been
have been a
been a number
a number of
number of news
of news opinion
news opinion pieces
opinion pieces and
このn-グラムは、言語が分かっているその他のページと比較され、私のページ(あるいは少なくともページの複数の部分)が英語であると特定される。因みに、グーグルブックス N-グラム ビューワーもまた、この言語検知アプローチで用いられているデータの場所と同じような場所で実施されている点を伝えておく。
n-グラムのアプローチは、グーグルリサーチ・ブログのエントリ、「すべてのN-グラムはあなたのもの」で記されているように、様々な用途に用いられている:
グーグルリサーチで、私はn-グラムのモデルを統計的な機械翻訳、温泉認識、スペル訂正、エンティティ検知、情報収集など、様々なR&Dプロジェクトに用いている。
文書の分類子を使ってウェブスパムを特定
文書レベルの分類子は、n-グラムのアプローチを使って、ウェブスパムページを特定しなければいけないわけではないが、このアプローチが使われている可能性はある。昨年の8月に付与されたグーグルの特許は、ページを特定するためにn-グラムのアプローチを盛り込んでいる。私はこの件をグーグルが分類およびクリックデータを基にウェブスパムに対抗する仕組みの中で説明した。
検索エンジンがウェブスパムを特定する仕組みに関して、ウェブスパム、ドアウェイページ、そして、操作的な記事に関するグーグルの特許の中でも取り上げている。この特許は、ページがウェブページである点を示す例をリストアップしている。その例を挙げていこう:
グーグルがページがウェブスパムかどうかを特定するために利用している改善された文書レベルの分類子は、その他の特徴や上述の特徴の多くを確認している可能性が高い。
皆さんが文書レベルの分類子を考案するなら、ウェブスパムを特定するために、どのような特徴に的を絞るだろうか?
この記事は、SEO by the Seaに掲載された「Document Level Classifiers and Google Spam Identification」を翻訳した内容です。
途中はかなりテクニカルでしたが、後半の「スパムチェックリスト」は具体的で役に立つかもです。というか、結局普通に真面目にコンテンツを作成していれば特に問題なさそうな内容ばかりなんですけどね。スパマーの皆さんの参考情報になっていそうで怖いです 汗 ってこれ位はある程度のスパマーさんになれば当の昔にクリアしてそうですが。しかし深読みすると中長期的に効力のある手法が色々垣間見えてくる気もします。– SEO Japan
SEO最新情報やセミナー開催のお知らせなど、お役立ち情報を無料でお届けします。