インデックスで同じようなテキストのスニペットを特定し、その意味が関連している点をグーグルが認識していると仮定してみよう。例えば、検索エンジンが「Soviet troops pulled out of Afghanistan(ソ連軍、アフガニスタンを引き上げる」と言う見出しのニュース記事や「Soviet troops withdrew from Afghanistan(ソビエト軍、アフガニスタンから撤退)」と言う見出しのニュース記事を見つけるとする。グーグルはこのような言い替えを理解することは出来るのだろうか?
言い替えを基調としたインデックスは以下の検索結果に影響を与えているだろうか?
私はフレーズベースのインデックスに関するエントリを何度か投稿している。Googleのフレーズベースのインデックスのフレーズ化および再検討は、このトピックに関する最新の記事である。フレーズベースのインデックスでは、検索エンジンはウェブページを調べ、そして、「良いフレーズ」と特定のページを関連させ、そして、このフレーズが特定のクエリに対する検索結果の上位のページで同時に記載される頻度を見極める。しかし、言い替えを見つける仕組みは若干異なるようだ。
2005年に申請され、今週グーグルに認可された複数の特許には、言い替えを認識し、インデックスし、利用する仕組みが描かれている。またこのトピックをさらに詳しく説明するホワイトペーパーもグーグルは発表している。言い替えの認識に関する1回目の投稿では、1つ目の特許とホワイトペーパーを1つ取り上げ、このトピックを紹介することに焦点を絞り、筆を進めていく。
先程挙げた2つの見出しに対する検索では、同じ、または非常によく似た検索結果を双方の結果に対して返すのが理想である。ただ単にキーワードをマッチさせてドキュメントを返すのではなく、検索エンジンは「Soviet troops pulled out of Afghanistan」と「Soviet troops withdrew from Afghanistan」がお互いに若干共通している点を認識しなければならない。検索エンジンは、言い替えが起きている際に特定するため、潜在的な言い替えを編集する行為、そして、ドキュメントからテキストを収集する行為をユーザーに依存するかもしれないが、こうすると時間がかかってしまい、また、多くの人々が多大な労力を費やさなければうまくいかないだろう。
それよりも、言い替えを適度に特定する自動的なプロセスを用いたアプローチの方が理に適っているはずだ。先程触れた特許の2つの考案者に名を連ねる数名の人物が作成したグーグルのホワイトペーパーは、この仕組み、そして、言い替えの特定が役に立つ理由を幾つか説明している。それが、なかなか見つからないアイテムを並べる: ウェブ上の言い替えを獲得(pdf)だ。
Marius Pasca氏とPeter Dienes氏はホワイトペーパーの中で、自動的に言い替えを特定するアプローチは、質に関わらずあらゆるドキュメントを使うことが可能なため、そして、どのドキュメントが言い替えを含んでいるのかを特定するプロセスを必要としていないため、他にはないアプローチだと説明している:
言い替えを取得する以前のアプローチとこのメソッドの違いを挙げていく
- クリーンで、信頼に値し、適切にフォーマットされたドキュメントではなく、本質的に完璧とは程遠い、信頼することが出来ないウェブドキュメントを使うことで、入力したデータの質における推測を取り除く。
- どのドキュメントが類似する言い替えを変換するのかに関する明確な手掛かりを必要としていない。同じイベントについてレポートしていたり、または同じストーリーを説明しているためだ。
言い替えの大きな集まりは、例えば文の断片等、ウェブドキュメントの大量の文から、徹底的な対の調整を通して集められる。
関連するプロセスをリサーチする一方、Pasca氏とDienesWhile氏はある実験を行っており、約9億7,200万ものウェブページから言い替えを抽出したようだ。
グーグルがインデックス内の言い替えについて学習しようとする理由を幾つか挙げていく:
1つ目の特許は、ウェブで一部の言い替えが識別される仕組みを詳しく説明している。
情報アイテムのインデックスおよび関連する文の断片から言い替えを特定するメソッドおよびシステム
考案: Alexandru Marius Pasca、Peter Szabolcs Dienes
付与先: Google
米国特許番号: 7,937,396
付与日: 2011年5月3日
申請日: 2005年3月23日
概要
この特許は、情報アイテムのインデックスおよび関連する文の断片から言い替えを特定するメソッドおよびシステムを説明している。この特許で描かれているメソッドは、お互いに同じ関連する情報を持つ文の断片のペアをインデックスから特定するプロセス(インデックスは、複数の情報のアイテムおよび関連する文の断片で構成されている)、そして、文の断片のペアから言い替えを特定するプロセスで構成されている。
あるメソッドには、日付、エンティティの名前、またはコンセプト、および、この情報と関連する文の断片がページに掲載されているかどうかを探すため、ウェブページのコンテンツを分析する一方で、特定の情報を求める作業が含まれる。
例えば、検索エンジンは多数の「1989」への言及を、関連する文の断片を含む多くのウェブページで見つけると、文の断片をお互いに比較して、類似点があるかどうかを確認する。次に多数のドキュメントの日付に関連する以下の2つの断片に注目し、文の断片で見られたパターンを基にお互いが言い替えであると考える:
「1989–Soviet troops pulled out of Afghanistan」
「1989–Soviet troops withdrew from Afghanistan」
言い替えの特定が行われると、言い替えのインデックスの中で(ソースとともに)お互いに関連付けられる可能性がある。
このような言い替えを探す際のルールが定められていることも考えられる。例えば、検索エンジンは、言い替えの同様の配置を必要とするかもしれない。この場合、「soviet troops」は双方の断片の始まりに記載され、「Afghanistan」は終わりに登場している。また、このように配置するために必要な単語のタイプの基準が定められている可能性もある。例えば、配置される単語はストップワード以外でなければならないだろう。
言い替えが妥当かどうかを決めるために、検索エンジンはそれぞれの文の断片がウェブの他のドキュメントに現れる頻度に注目し、頻度が少ない場合は言い替えのインデックスから除外する措置を取っている可能性がある。
例えば、「pulled out of-withdrew from」の言い替えのペアの頻度の値が10であり、つまり潜在的な言い替えのペアのリストに10回登場しているなら、「pulled out of-withdrew from」の言い替えの単一の入力は、関連する頻度の値の10とともに言い替えのインデックスに含まれるだろう。
この言い替えの頻度の値は、Q & Aの結果のようなアイテムにおける有用度を示唆するために言い替えの格付けに、または言い替えの結果を用いるクエリを拡大するために使われる可能性がある。
この特許は次のように説明している:
情報検索において、言い替えのインデックスは、検索のリクエストの言い替えと検索で求められているドキュメントのテキストの中に存在する言い替えを関連付けるために用いられる可能性がある。例えば、「withdrew from」と言うフレーズを含むウェブ検索のクエリが入力されると、検索エンジンは言い替えのインデックスにアクセスし、関連する「withdrew from」が「pulled out of」という言い替えが存在することに気づくだろう。
検索エンジンはこの情報を使って、「withdrew from」と「pulled out of」の双方、そして、検索用語の残りにマッチするドキュメントを検索することが可能だ。質問の単語やフレーズの言い替えを特定することで、より完全に近い答えを識別する上で役に立つだろう。
また、言い替えを探すプロセスは、検索結果内でドキュメントを説明するために作られたスニペット内の言い替えを見つけた際に、検索結果から一部のページを外すために用いられる可能性もある:
ドキュメントやテキストを要約する上で、鍵となる文が特定されるだろう。これはドキュメントやテキストの内容を要約する際に役に立つためだ。言い替えを特定することが出来ると、同じことを言っているものの、若干言い方が異なるだけの重複する文を特定することが可能になる。
次回のエントリでは、言い替えベースのインデックスをさらに詳しく調べていくつもりだ。とりあえずは、グーグルが言い替えを特定して、クエリを拡大していること、そして若干重複するコンテンツを提示するのを回避している可能性があることを分かってもらえれば、上々のスタートを切ったと言えるだろう。
この記事は、SEO by the Seaに掲載された「Google’s Paraphrase-Based Indexing, Part 1」を翻訳した内容です。
SEO最新情報やセミナー開催のお知らせなど、お役立ち情報を無料でお届けします。