Trùng lặp nội dung và cách khắc phục

Posted Posted by admin in Hướng dẫn SEO     Comments No Comments
Oct
17

Trùng lặp nội dung là điều thường gặp ở các website. Trùng lặp nội dung xảy ra khi 2 trang web khác nhau có nội dung giống nhau. Thông thường, trùng lặp nội dung là do vô tình và gây ra bởi hệ thống quản trị nội dung (CMS) hoặc máy chủ hosting. Tuy vậy, cũng có những trường hợp người chủ web cố tình tạo ra những nội dung trùng lặp và điều này sẽ ảnh hưởng xấu đến thứ hạng website của họ.

Điều bạn cần biết là máy tìm kiếm không phạt bạn do trùng lặp nội dung. Trừ phi phần lớn nội dung của bạn bị trùng lặp một cách có chủ ý, một vài trang web trùng lặp sẽ không khiến bạn bị phạt bởi máy tìm kiếm. Tuy nhiên, nó có thể làm giảm lưu lượng truy cập đến trang web của bạn vì máy tìm kiếm buộc phải lựa chọn trang web nào phù hợp nhất với nội dung tìm kiếm trong số nhiều trang web của bạn. Dưới đây là những trường hợp trùng lặp nội dung hay gặp nhất và cách khắc phục.

Trùng lặp ở trang chủ

Đây là loại trùng lặp nội dung mà rất nhiều website mắc phải. Đó là khi trang chủ của bạn có thể truy cập từ nhiều hơn một địa chỉ URL

1. domain.com

2. www.domain.com

3. domain.com/index.html

4. www.domain.com/index.html

Với máy tìm kiếm, mỗi địa chỉ URL là một trang web riêng biệt. Nếu website bạn xảy ra tình trang này, và bạn chưa nhận ra nó hoặc chưa biết cách xử lý nó (ví dụ redirect 3 trang về 1 trang chính duy nhất) máy tìm kiếm sẽ không biết show địa chỉ nào trong bảng kết quả tìm kiếm. Từ đó, sức mạnh trang chủ của bạn sẽ bị giảm đi.

Giải pháp

Có vài cách giúp bạn xử lý tình huống này.

Cách 1 là thiết lập redirect ở server hosting để đảm bảo sẽ chỉ có một trang chủ duy nhất được trả về. Cách cấu hình cụ thể còn phụ thuộc vào loại server bạn sử dụng. Liên hệ nhà cung cấp dịch vụ hosting của bạn để có câu trả lời thỏa đáng.

Các 2 là thiết lập địa chỉ ưu tiên trong Google Webmaster.

Sumdomains, HTTPS và Relative Linking

Việc sử dụng subdomains nói chung không được khuyến khích vì không thân thiện trong SEO. Tuy nhiên, đôi khi bắt buộc phải có vì yêu cầu hoạt động của doanh nghiệp. Một trong những vấn đề mà subdomain có thể gây ra là việc trùng lặp nội dung.

Các trường hợp gây ra trùng lặp nội dung:

  • Sử dụng liên kết tương đối cùng với subdomain. Hậu quả: Trùng lặp giữ subdomain và domain chính
  • Sử dụng liên kết tương đối cùng https. Hậu quả: Trùng lặp giữa phiên bản http và https

Giải phảp

Khi xây dựng các liên kết nội bộ, chỉ sử dụng đường dẫn tương đối thay vì đường dẫn tuyệt đối. Ngoài ra bạn có thể sử dụng canonical để tự trỏ về mình. Cách làm này ít nhất là hiệu quả với Google. Nó không chỉ có tác dụng ngăn ngừa trùng lặp nội dung mà còn có tác dụng ngăn ngừa trường hợp toàn bộ website bị copy mang đi nơi khác mà không được đặt link trỏ về bản gốc.

khac phuc trung lap noi dung

Trang Tab/Thư mục

Với các blog, việc sử dụng tag và category có thể gây ra trùng lặp nội dung khi một trang tag/category có nội dung giống với một/nhiều trang tag/category khác.

Ví dụng, bạn viết blog, và có 3 bài về chủ đề làm nội dung như ở dưới đây:

  • Tên bài: làm thế nào để ngăn chặn trùng lặp nội dung
  1. Tags: trùng lặp nội dung, seo, cách làm, bí kíp
  2. Category: SEO, cách làm, nội dung
  • Tên bài: bạn không bị phạt nếu nội dung của bạn bị trùng lặp
  1. Tags: nội dung trùng lặp, hình phát, seo
  2. Category: SEO, Nội dung
  • Tên bài: làm thế nào để viết được một nội dung tốt
  1. Tag: nội dung, cách làm, bí kíp, sáng tạo
  2. Category: SEO, Nội dung, Cách làm

Bạn có thể thấy sự trùng lặp nội dung của các trang tag và category qua bảng dưới đây

Trung lap noi dung cua cac trang tab va category

Giải pháp

Giải pháp phụ thuộc vào cách bạn sử dụng tags và categories cũng như số lượng tags và categories bạn sử dụng cho mỗi bài viết. Nếu bạn sử dụng ít categories và nhiều tags (giống như phần lớn mọi người), sử dụng noindex, nofollow cho tất cả các tag. Trang categories có thể giúp nội dung bạn được index đầy đủ. Ngược lại, nếu bạn sử dụng nhiều categories và ít tags, sử dụng noindex và nofollow cho tất cả các trang categories.

Tóm lại, bạn muốn bọ tìm kiếm có thể tìm thấy và đọc hiểu nội dung của bạn và bạn cũng muốn người dùng có thể dễ dàng tìm ra nội dung của bạn theo từng chủ đề mà họ tìm kiếm. Những bạn cũng không muốn có trùng lặp nội dung. Nếu bạn không áp dụng những hướng dẫn ở trên, điều này sẽ xảy ra với 2 trang web sau:

http://www.domain.com/blog/tag/seo và http://www.domain.com/blog/seo.

Phiên bản dành cho máy in

Đầy là tình huống trùng lặp nội dung khá phổ biến nhưng ít người để ý. Chức năng in sẽ tạo ra một địa chỉ URL mới có nội dung gần giống với trang web chính.

Ví dụ:

  1. www.domain.com/trang-1
  2. www.domain.com/trang-1/print

Giải pháp

Giải pháp đơn giản nhất là đạt thẻ rel=canonical vào trang dành cho việc in và trỏ nó về trang chính. Nếu bạn sử dụng tham số để phân biệt trang in với trang thường, bạn có thể đặt thẻ rel=canonical trên trang chính và trỏ về chính nó. Giờ đây, tất cả những phiên bản khác của trang chính sẽ từ động trỏ về trang chính, trong đó bao gồm các phiên bản in ấn. Kết quả là www.domain.com/trang-1/id=print sẽ có một thẻ rel=canonical trỏ về trang chính www.domain.com/trang-1.

Thẻ rel=canonical là một phẩn của header của mỗi trang web, nơi bạn tìm thấy tiêu đề và thẻ mô tả.

Ví dụ:

<Link rel=”canonical” href=”http://www.seomoz.org/blog” />

Các trang web có thẻ rnafy sẽ được bọ tìm kiếm đối xử như là bản sao của trang web www.seomoz.org/blog. Từ đây, bọ tìm kiếm có thể biết đâu là phiên bản chính và phiên bản copy.

Di động

Điều tương tự cũng có thể xảy ra với phiên bản mobile của trang web (phiên bản dành cho các thiết bị di động như smartphone, máy tính bảng). Nếu nội dung giống nhau trong khi địa chỉ URL khác nhau, máy tìm kiếm sẽ bối rối không biết đâu là địa chỉ tốt nhất để cung cấp cho người dùng.

  1. www.domain.com/page.html
  2. m.domain.com/page.html
  3. www.domain.com/m/page.html

2 trang web cuối có nội dung giống nhau, cùng phục vụ cho các thiết bị di động nhưng lại tồn tại trên 2 địa chỉ URL khác nhau.

Giải pháp

Có nhiều giải pháp, và bạn có thể lựa chọn cái nào phù hợp với tài nguyên của mình. Giải pháp hoàn hảo nhất là sử dụng duy nhất một địa chỉ URL, và tận dụng tính năng tự động phát hiện trình duyệt (browser indentifiers) để trả về những phiên bản web khác nhau với các phong cách CSS khác nhau, tùy thuộc vào thiết bị của người dùng.

Theo wiki, CSS là một loại code, quy định cách trình bày các tài liệu viết bằng ngôn ngữ HTML và XHTML.

Nếu không thể làm được theo hướng này, bạn chắc chắn nên sử dụng thẻ rel=canonical trỏ từ trang dành cho mobile về trang chính. Đảm bảo phát hiện trình duyệt chuẩn xác để nếu người dùng sử dụng laptop hoặc máy để bàn truy cập vào địa chỉ URL cho thiết bị di động, họ sẽ được chuyển hướng sang địa chỉ URL chính.

Các trang tìm kiếm

Nhiều khi người dùng muốn tìm kiếm trên website của bạn. Vì dụ tìm kiếm tất cả những cuốn sách có chủ đề “thuyết trình” trên website “bán sách online” của bạn. Trang kết quả trả về có thể giống với trang kết quả khi họ tìm kiếm theo chủ đề “trình bày”. Điều này sẽ gây ra sự trùng lặp nội dung. Ngoài ra, kết quả tìm kiếm cũng có thể giống với trang thư mục “trình bay”. Thử tìm kiếm trên mediamart.vn với 2 từ khóa “máy xay” và “máy xay sinh tố”, bạn cũng sẽ thấy những kết quả tương tự.

Giải pháp

Giải pháp là thực hiện noindex, follow trong meta robot của các trang này. Hoặc sử dụng robots.txt để yêu cầu máy tìm kiếm không dò quét các trang này.

Nguồn: VietMoz

 Bài viết nên đọc:

 

Post comment