Googleはどうやってオリジナル記事とコピー記事を判別するのか

[レベル：全員]

複数のサイトに同じコンテンツが存在した場合、Googleは何を手がかりにしてオリジナルを判断しているのでしょうか。

GoogleのMatt Cutts(マット・カッツ)氏が回答しました。

そのコンテンツが最初にどこで書かれたか、どこで現れたかを見極めるための新しいアルゴリズムを書いたり新しい方法を見つけたりしながら時間とともに変わってきている。

僕たちが使っていそうだと考えられるシグナルをいくつか紹介しよう。

たとえば、Googleがウェブでそのコンテンツが初めて現れたのを見た時間と場所だ。

キミが何かを書いて公開したら、僕たちはそれをクロールしてコンテンツをぜんぶ見る。もし2年後に、どこか別の場所で同じ記事が現れたとしたら、2年前に見たものが発信元の可能性が高いだろう。

ブログやCMSを使っているならPingを打つことができる。WordPressやBolggerなど多くのサイトがこの機能を持っている。ブロク記事を公開したときは必ずPingを送ればいろんなブログ検索やリアルタイム検索、そしてGoogleにも届いて、コンテンツがいつ投稿されたのか僕たちが絞り込む助けになる。

PageRankももちろん見ている。

まったく同じコンテンツがあったとして、片方はとても評判のいいサイトでもう片方はすごく新しくて、今まで見たことのない、うさんくさい、どこか怪しげで、質が高いとはとうてい思えないサイトだとしたら、評判のいいサイトの方でコンテンツが公開されたと判断できるだろう。

rel=”canonical”も当然使っている。

このタグはコンテンツの優先する場所を明確に示すシグナルになる。

もう少し間接的な手段としてrel=”author”も使える。このタグは、記事を書いたのは自分であるとかコンテンツ著者のプロフィールページがここにあるとウェブに注釈を付ける方法だ。名前が知れ渡っているとかそういうことに関する限りは、コンテンツがどこから来たのかを知る多少のヒントになる。

理論的にはサイトレベルのシグナルも使える。

あるサイトが大量にスクレイピングしていたとして、そのサイトと別のサイトにコンテンツが現れたとする。オリジナルコンテンツを作ってきたかもしれない立派な歴史を持っているサイトと比べて、スクレイパー風に見えるタイプのサイトがオリジナルの著者だと考えはしないだろう。

このようにたくさんの異なる要因が考えられる。

Googlebotはウェブをサンプリングしているからこの問題は扱いにくい。ウェブは無限だし、ミリ秒単位で変化する。だからいつどこでコンテンツが最初に現れたかを正確に判断することはとても扱いにくいことなんだ。

正しく処理できるように取り組んでいる。でも時にはしくじってしまうこともある。そんな時はフィードバックしてもらえたら嬉しい。

だが、特定のコンテンツのオリジナルのソースがどれかを見極めるのにたくさんのいろいろなヒントやシグナル、可能性として考えられる手段があることは間違いなく事実だ。

Matt Cutts氏がこのビデオで説明した、Googleがオリジナルコンテンツを見極めるのに使っていると考えられる要因は次のとおりでした。

Googleがそのコンテンツを最初に見つけた時間と場所
そのコンテンツが存在するページのPageRank
rel=”canonical”タグ（とrel=”author”タグ）
サイト全体の状況

“早い者勝ち”という要因は確かにありますね。

自分がいち早く公開した記事だとGoogleに知らせるためにPing送信を進めています。

GoogleはRSSフィードもコンテンツ発見に使っています。

速くインデックスさせるにはともに重要な機能になりますね。
通常のブログにはどちらも標準で備わっているはずです。

RSS配信では、PubSubHubbub (PuSH)を利用すればさらに速く更新をGoogleに通知できるかもしれません。
WPをPuSH対応にするプラグインもあります。

PageRankも分かりやすいです。

PageRankが高い、言い換えると評価の高いページのほうがオリジナルだとみなされる傾向にあります。
PageRankが高いということは、リンクが集まっているということで、リンクが集まっているということはオジリナルで質の高いのコンテンツを配信している証拠であろうから、そのページの方がオリジナルと考えることは妥当です。

ただこれがやっかいで、本当は自分がオリジナルなのに全体として評価が高いサイトに~~パクられ~~同じ記事を配信されて、向こうがオリジナル扱いされてしまうことがあります。

僕の場合は、幸いにそれなりの評価がこのブログに付いていると思われるので、そういった悔しい思いを経験したことはありませんが。

rel=”canonical”は本来のURLを検索エンジンに伝えるタグなので、これを利用すればほぼ完全にオリジナルを伝えることができます。

でもスクレイパーがrel=”canonical”を記述するはずがないので、スクレイピング対策には使えません。

提携して記事配信を許可している場合は、配信先のページから、配信元であるあなたのページに向けてrel=”canonical”を張ってもらえば安心です。

rel=”author”タグは、コンテンツの著者情報を伝える仕組みです。

Googleではこんなふうに、そのコンテンツ（ページ）の作者の写真と名前が検索結果に出てきます。

rel=

rel=”author”については、Googleのサポート開始直後にWeb担で解説しました。

ただここで書かれている設定はヘルプドキュメントが日本語化されているものの古い方法です。

まだ日本語化されていませんが、こちらが今の設定方法です。

前の設定も引き続きサポートしていますが、新しい方がややこしさが“多少”緩和されています。

ちなみに僕のプロフィールは1ヶ月以上たってやっと出てきたのに、ほどなくして消えてしまいました。
設定を変えたわけではないのに原因不明です（日本語サイトのサポートを一時的にストップした？）。

サイトレベルの要因も関係してくることがあるとのことです。

他人のコンテンツをコピペしているだけのサイトをオリジナルとみなすことは理にかなっていません。

Matt Cutts氏が最後に言っているように、Googleは必ずしもオリジナルを適切に見極めることができていません。

特にパンダ・アップデート以降、重複コンテンツを嫌う傾向がさらに強まっているのですが、クロスサイトでの重複コンテンツの判断に失敗してオリジナルの順位を下げるというミスが多発しています。

判断が難しいとのことですが、僕たちオリジナルコンテンツを配信するウェブマスターにとってスクレイパーが優先されてしまうのは許しがたいことです。

Googleには頑張ってもらわないと困りますね。

完全に著作権侵害だというときには、DMCA侵害の申し立てを送信しましょう。

検索結果でスクレイパーに先を超こされてしまった時にはフィードバックを送りましょう。