SEO:重複內容(Duplicate Content)
22 Jan 2014網路上存在著許多重複內容,搜尋引擎為了提供使用者最佳的搜尋結果,便會對這些內容作區別。而網頁內容重複是難免的,但造成了搜尋結果排序上的困擾。因此,我們可以對這些頁面做處理,修正搜尋引擎對它們的解讀。
什麼重複內容?
先定義什麼是「重複內容」(Duplicate Content)。
在相同或不同 domain 下,某些區塊的內容是類似的或完全一樣的,可參考 Google 網站管理員工具-重複的內容。
由此可知,「重複內容」可區分為兩種狀況:相同 domain 與不同 domain。相同 domain 的可能是因為同時有列印版本的網頁;不同 domain 可能發生於論壇、購物網站。
重複內容會導致什麼後果?
搜尋引擎為了提供使用者最佳的搜尋結果,便會對這些內容作區別。當搜尋引擎發現重複內容是惡意產生的,例如:使用黑帽手法-為了增加錨定文字(Anchor Text)或連結數量而不斷將重複內容放置於不同網頁中。如果狀況嚴重,搜尋引擎會將此網站或網頁永久從搜尋結果中移除。
當然也有些重複內容的產生,並非惡意,因此 Google 不罰,例如
- 論壇:由於討論類似的主題或引言,論壇同時會有相同與不同 domain 重複內容的情形。
- 購物網站:相同商品在不同網站販賣,但商品資訊是相同的。
- 為列印或行動裝置而設定的網頁版本。
雖然以上這些狀況 Google 不罰,但由於搜尋結果的排序,我們仍須對重複內容做處理。我們必須告訴搜尋引擎,這些重複內容中,哪一個頁面是我們希望呈現給使用者的、排在前面的,我們就將這個建議的定址的 URL 告訴搜尋引擎。 這個動作稱為「Cannonicalization」。
重複內容的處理
對於重複內容的處理方式有以下幾種
- 301 Redirect:使用永久轉址來做轉址的動作,使用於更新文章或換網址。
- URL 的格式要一致:有些重複內容的出現是因為網址格式的不同所導致,例如:
http://site.com/page
、http://site.com/page/
、http://site.com/page/default.htm
,而其實它們都是指向同一個頁面。 - 告訴 Google 所要使用的 domain,例如要使用
http://www.site.com
或http://site.com
。 - 對於重複內容頁面使用
rel="canonical
(使用於頁面分於列印版本、行動裝置版本),而這個做法也就是匯集重複頁面的 link juice 到特定頁面上,以提升搜尋排名。例如:<link rel="canonical" href="http://site.com/index.html">
。 - 從根本解決,避免重複內容的出現。
重複內容的檢測
在這裡有提供兩個小工具來檢測網頁的相似度。
將兩個要比對的網址輸入,即可檢測此兩個頁面的相似度(提供百分比)。
一般來說我們無法得知到底兩個頁面的相似度為多少時會被判定為重複內容,而這樣的相似度也並非完全固定,而是與內容字數總量有關(偷偷不專業說我會抓個 30%,也就是盡量讓頁面的相似度不要超過 1/3)。我們只要抓緊一個原則就好:提供優質內容。只要是提供優質的內容給使用者,搜尋引擎必定會放在前面。
延伸閱讀-Should You Write Multi-Part Blog Posts?
後記
(2017/03/04 更新)
總結重覆內容的處理方式
- Canonical:對於重覆內容的網址則一即可,這也是桌機、手機和 AMP 版本網頁對應設定的方式。
- Search Console 網址參數設定:重覆內容的產生有時只是因為網址參數的不同而已,可至 Search Console 設定不需檢索的參數。
- 如果真的不希望搜尋引擎檢索這些頁面,可使用 robots.txt:disallow / noindex、meta noindex 阻擋檢索,或至 Search Console 回報移除網址。
301 與 302 對於檢索的影響
就定義而言,301 表示 Permanent Redirect(永久轉址),而 302 表示 Temporary Redirect(暫時轉址)。
301 Redirect 可避免搜尋引擎誤認跳版頁面的內容為需要檢索的內容,例如:A 頁到 B 頁的轉跳,若回傳 301,則搜尋引擎知道 B 頁面為目標檢索頁面;但若回傳 302,則會誤認 A 頁面為目標檢索頁面。這也就是為什麼縮網址服務是使用 301 的原因。
參考資料
- Google’s Matt Cutts: Duplicate Content Won’t Hurt You, Unless It Is Spammy
- Specify Your Canonical
- How To Do a Content Audit - Step-by-Step
這篇文章的原始位置在這裡-SEO:重複內容(Duplicate Content)
由於部落格搬遷至此,因此在這裡放了一份,以便閱讀;部份文章片段也做了些許修改,以期提供更好的內容。