Googleの重複コンテンツの基準は?ペナルティを受けない対策

重複コンテンツがあるとダメな理由

コピペサイト・重複コンテンツは割とよくある

ある日、何気なく検索をしていると、自分が書いた記事と同じタイトルの記事が検索結果に表示されているのを発見。

「あれ?」と思ってクリックすると、書いてある内容もほぼ同じ……。そんな体験をしたことはないですか。わたしは5-6回あります。

これだけ多くのWEBサイト、WEBページが存在すると、内容が似ることは仕方がありません。何十人、何百人が1つのテーマについて書いているものが、まったく被らないことは逆に不自然だと思います。

ただ、コピペしたかのように同じページがあるのはもっと不自然です。このようにページの内容が同じものを、「重複コンテンツ(コピーコンテンツ)」と言います。

では、Googleは重複コンテンツをどのような基準で判断しているのでしょうか。また、重複コンテンツがあると何がいけないのでしょうか。

今回は、重複コンテンツについてお話したいと思います。

重複コンテンツとは

重複コンテンツとは、あるページが自サイトのページや他サイトのページと全く同じ記述、同じ画像を使った内容だったり、流れを含めて極めてよく似ている内容など、重複したページが存在することを言います。

一般的に、重複コンテツがあることはいけないことであり、Googleによるペナルティ対象になると言われていますが、すべてがそう判断されるわけではありません。

なぜなら、WEB上には大量のWEBページがあり、偶然コンテンツが似てしまうことも珍しくないからです。

Googleのマット・カッツ(Matt Cutts)氏は、WEB上にあるコンテンツの25-30%はどこかしら重複しているため、重複コンテツだからといって必ずしもペナルティを受けるわけではないと話しています。

Matt said that somewhere between 25% to 30% of the content on the web is duplicative. Of all the web pages and content across the internet, over one-quarter of it is repetitive or duplicative.

But Cutts says you don’t have to worry about it. Google doesn’t treat duplicate content as spam. It is true that Google only wants to show one of those pages in their search results, which may feel like a penalty if your content is not chosen — but it is not.

Google’s Matt Cutts: 25-30% Of The Web’s Content Is Duplicate Content & That’s Okay – Search Engine Land

重複コンテンツの種類

Googleでは重複コンテンツを「多くの場合、偽装を意図したものではありません。」としています。つまり、意図的で悪意がある重複コンテンツとそうではない重複コンテンツに分けているということです。

悪意がない重複コンテンツの基準

サーチコンソールヘルプでは、悪意がない重複コンテンツの例として以下のものを挙げています。

  • 通常ページと携帯デバイス用の簡易ページの両方を生成するディスカッション フォーラム
  • 複数の異なる URL で表示またはリンクされる商品ページ
  • ウェブページの印刷用バージョン

重複するコンテンツ – Search Console ヘルプ

その他にも、Googleに重複コンテンツと判断されやすいものとして、以下のものがあります。

・中身の大部分を引用して、感想を少しだけ追加したページ
・意図せず、同じ内容になってしまったページ
・他サイトにコンテンツを盗用されているページ
・URLが正規化されていないページ

悪意がある重複コンテンツの基準

重複コンテンツがペナルティになるのは、Googleが「無断複製されたコンテンツ」だと判断したためです。

つまり、「無断複製されたコンテンツ」が悪意がある重複コンテンツだということです。無断複製されたコンテンツには、以下の特徴があります。

  • 他のサイトのコンテンツをコピーし、独自のコンテンツや付加価値を加えることなく転載しているサイト
  • 他のサイトのコンテンツをコピーし、(語句を類義語に置き換えたり自動化された手法を使用したりして)若干の修正を加えた上で転載しているサイト
  • 何らかの独自の体系付けやユーザーへの利便性を提供することなく他のサイトからのコンテンツ フィードをそのまま掲載しているサイト
  • ユーザーに実質的な付加価値を提供することなく、他のサイトの動画、画像、その他のメディアなどのコンテンツを埋め込んだだけのサイト

重複するコンテンツ – Search Console ヘルプ

もちろん、Googleは悪意がある重複コンテンツを嫌います。ただし、悪意の有無にかかわらず重複コンテンツがあることは、WEBサイトにとって悪い影響を与えます。

重複コンテンツを放置してはいけない理由

WEBマスターは、WEBサイトを管理するうえで、自サイト・他サイトに限らず、また悪意の有無にかかわらず重複コンテンツを放置してはいけない理由があります。

ペナルティの対象になるため

悪意がある重複コンテンツだとGoogleに判断された場合は、検索順位の低下やインデックス削除のペナルティ対象になる可能性があります。

Google でのランキングの操作やユーザーへの偽装を意図した重複コンテンツが表示される可能性が認識された場合も、Google では関係するサイトのインデックス登録とランキングに対して適切な調整を行います。その場合、該当するサイトはランキングが低下するか、Google インデックスから完全に削除されて検索結果に表示されなくなる可能性があります

重複するコンテンツ – Search Console ヘルプ

ただし、多少似通った程度のページは許容される場合があります。

そのため、自サイトのページに似通った他サイトのページが上位表示されているとあなたが気付いたとしても、単純に重複コンテンツだと判断されたわけではなく、他サイトのページの方がコンテンツの質が高かったと考えるべきでしょう。

クローラビリティが下がるため

Googleにとって、クローラビリティが高いページは重要だと判断されています。ところが、Googleが重複コンテンツがあると判断すると、効率良くクローリングするために一方のページの訪問頻度が下がる恐れがあります。

そうなると、検索結果でも上位に表示されにくくなります。これは自サイト内の重複であるか、自サイト外との重複であるかは関係ありません。

検索結果から除外するフィルタがかかるため

Googleでは、以下のように重複コンテンツを検索結果から除外するフィルタがあります。

  • 重複コンテンツのうち、キーワードに関連性が高いものを検索結果に表示する
  • 検索結果に表示されるページが複数ある場合は、両者を表示させない可能性がある

Duplicate Content—If multiple documents contain the same information, then only the most relevant document of that set is included in your search results.

Host Crowding—If there are many search results from the same site, Google may not show all the results from that site or may show the results lower in
the ranking than they otherwise would have been.

XML API reference  |  Custom Search  |  Google Developers

ちなみに、検索URLに「&filter=0」を付けると、除外された内容を含む検索結果を表示することができます。

リンクの評価が分散されるため

内部・外部に限らず、リンクが集まっているWEBページは、リンク元のリンクジュース(link juice)が渡されることで価値が高くなります。

もし自サイト内に重複コンテンツがあると、本来であれば1つに集約すべきリンクジュースが分散してしまう可能性があります。

重複コンテンツがあるとリンクジュースが分散される

WEBサイトの評価が下がるため

WEBサイト内に似た内容のコンテンツがたくさんある場合(そのようにGoogleが判断した場合)、サイト全体の評価が下がる可能性があります。

Google Ranking Factors: 273 Facts & Myths (2019) | Northcutt

自サイト内の重複コンテンツの確認と対策

あなたがWEBマスターなら、自サイト内にある重複コンテンツの有無はあなたが判断しなければいけません。そのため、重複コンテンツがある場合は、速やかに対策する必要があります。

サーチコンソールで重複確認する

自サイト内で重複コンテンツがあるかどうかを判断する場合は、まずサーチコンソールで重複の確認をしましょう。

サーチコンソールのカバレッジを見て、除外がある場合は、以下のステータス重複がないか確認してください。

おおむね正常な状態のカバレッジレポートの表示
重複コンテンツがある場合の除外のステータス
  • 重複しています。ユーザーにより、正規ページとして選択されていません
  • 重複しています。Googleにより、ユーザーがマークしたページとは異なるページが正規ページとして選択されました

重複に該当するページに対応する

もし、重複コンテンツに該当するページがあり、その内容がGoogleに正しく認識されていない場合は、すぐに修正する必要があります。

一般的に重複コンテンツは、「1.ページの改善>2.ページの統一>3.noindex処理>4.ページの削除」という順番で改善をします。

手作業で重複コンテンツがないか探す

もしサーチコンソールを見て、重複コンテンツがなければ、次は手作業で重複コンテンツがないか探してください。なぜなら、悪意がない重複コンテンツでも、自動的に以下の対応を受ける場合があるためです。

  • 重複コンテンツのうち、キーワードに関連性が高いものを検索結果に表示する
  • 検索結果に表示されるページが複数ある場合は、両者を表示させない可能性がある

手作業で重複コンテンツを探す方法はいくつもありますが、わたしは以下の2つで確認しています。

検索クエリから判断する

コンセプトが似ているページの検索クエリをGoogleアナリティクスで確認しましょう。

もし複数のページで似たような検索クエリの表示が多い場合は、一方が重複コンテンツとして調整されている可能性を疑いましょう。

アナリティクス-ページごとの検索クエリ

ちなみに、検索クエリ(search queries)とは、ユーザーが検索をする際に検索エンジンに入力した言葉のことで、検索キーワードとは意味が違います。

サイト内検索などで目視チェックする

同様に、Googleアナリティクスに表示される検索クエリを見て、ここで上位表示されている検索クエリと似たコンセプトのページ、または検索クエリでサイト内検索して引っかかるページをすべてチェックしてください。

基本的に1ページにつき、キーワードは1つです(本来は1ページにつき、コンセプトが1つと言った方が良い)。そのため、違う検索クエリで引っかかるように、ページを修正しましょう。

自サイト内重複コンテンツの対策しすぎに注意

さて、重複コンテンツは、自サイト内の重複であるか、自サイト外との重複であるかは関係ないと話しましたが、検索クエリを見る限り、また検索流入を見る限り、多少似ていても集客ができているベージであれば、それほど気にする必要はありません。

重複コンテンツの線引きはとても難しいものですし、わたしたちにはGoogleがどのような判断しているかは検討がつきません。

そのため、重複コンテンツを修正しすぎたり、排除しすぎてしまうと、返って検索順位を落としてしまいかねません。

自サイトにおいて重複コンテンツを疑うことは、そもそも時間の無駄です。

なぜなら、本来はWEBサイトを設計した段階、またはネタ出しの段階で、コンテンツが重複しないように、「キーワード」「ターゲット」「コンセプト」を決定して、進めるものだからです。

そのため、貴重な時間を無駄にしないために、WEBサイトは設計段階で重複がないように練り上げてから作成するようにしてください。

ただし、外部サイトとの重複であれば話はまったく別です。自サイトの修正を重ねて、より上位に表示されるようにするか、外部サイトの重複コンテンツを排除する必要があります。その方法は、以下でお話したいと思います。