Sitemap và RSS Feeds – Tầm quan trọng và tại sao?

Posted Posted by admin in Hướng dẫn SEO     Comments No Comments
Oct
20

Sitemaps được các SEO và người quản trị website sử dụng để thông báo cho Google về cấu trúc site – cụ thể là những trang web nào hiện có trên website của họ.

RSS feeds được sử dụng để thông báo cho người đọc – những người đã đăng ký nhận RSS khi website có nội dung mới.

Bài này sẽ giới thiệu với bạn 2 loại sitemaps, XML và HTML, và vai trò của chúng. Bạn cũng sẽ được biết những điều cần tránh khi sử dụng sitemaps.

Cuối cùng, chúng tôi sẽ giới thiệu RSS feeds và cách sử dụng chúng cho mục đích SEO cũng như cho hoạt động của doanh nghiệp.

XML hay HTML

Có 2 loại sitemaps, đó là:

  1. XML
  2. HTML

XML Sitemaps

XMLL sitemaps được xây dựng dựa trên eXtensible Markup language (XML), hay ngôn ngữ đánh dấu mở rộng – Mục đích chính của XML là đơn giản hóa việc chia sẽ dữ liệu giữa các hệ thông khác nhau, đặc biệt là các hệ thông được kết nối với Internet. Để tìm hiểu về XML và cách sử dụng nó, hãy ghé thăm W3C W3Schools.com tutorials.

XML sitemaps là bản đồ trang web mà bạn làm ra để dành riêng cho máy tìm kiếm. Đây là bản mô tả tổ chức trang web mà qua đây máy tìm kiếm sẽ dễ dàng khám phá website của bạn.

Định dạng

Tất cả các site XML đều bắt đầu với 2 dòng dưới đây, chỉ rõ định dạng của sitemap này XML cho máy tìm kiếm khỏi nhầm lẫn:

<?xml version=”1.0″ encoding=”UTF-8″?>

< urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

Tất cả các dòng trong sitemap XML đều có định dạng như dưới đây:

< url>

< loc>http://www.domain.com/</loc>

< lastmod>2012-01-01</lastmod>

< changefreq>monthly</changefreq>

< priority>1.0</priority>

</url>

Ý nghĩa

<loc> (bắt buộc) Khai báo địa chỉ URL đầy đủ của trang, bao gồm loại giao thức (http hay https) và gạch chéo. Địa chỉ này không được dài quá 2048 ký tự.

<lastmod> (không bắt buộc) Khai báo thời điểm cập nhật gần nhất của trang web. Định dạng ngày tháng là Năm-Tháng-Ngày.

<changefreq> (không bắt buộc). Khai báo tần suất cập nhật nội dung của trang:

  •  Luôn luôn
  • Hàng giờ
  • Hàng ngày
  • Hàng tuần
  • Hàng tháng
  • Hàng năm
  • Không bao giờthay đổi

Đây là hướng dẫn dành cho bọ tìm kiếm, và hoàn toàn không ảnh hưởng đến tần suất index của bọ tìm kiếm.

<priority> (không bắt buộc). Khai báo độ ưu tiên của trang web so với các trang web khác trên website. Quản trị web sử dụng thông số này để báo trước cho bọ tìm kiếm biết trong số tất cả các trang web hiện có trên website, trang web nào quan trọng hơn, trang web nào ít quan trọng hơn.

Giá trị thay đổi từ 0.0 đến 1.0 với 1.0 là quan trọng nhất. Giá trị mặc định (nếu bạn không thiết lập) là 0.5.

Vì đây là chỉ số xác định mức độ quan trọng của trang web này so với trang web khác và chỉ có ý nghĩa trên website của bạn nên nếu bạn đặt mức độ ưu tiên trên tất cả các trang là 1.0 cũng sẽ không làm ảnh hưởng gì đến thứ hạng trang web.

Sitemaps kết thúc với dòng code sau:

</urlset>

Công cụ tạo Sitemap

Có nhiều công cụgiúp tạo sitemap XML cho website của bạn. 3 công cụphổbiến nhất là:

  1. http://www.xml-sitemaps.com/
  2. GsiteCrawler
  3. IntelliMapper

XML sitemaps cũng có thểtạo bằng tay, nhưng nếu đó là 1 website lớn hoặc một site trung bình nhưng được cập nhật thường xuyên đó sẽ là một công việc buồn tẻ, đơn điệu và tốn nhiều sức. Do đó, bạn nên sử dụng những hệ thống quản trị nội dung hoặc những nền tảng khác có chức năng tự động tạo sitemap và pings máy tìm kiếm (thông báo cho máy tìm kiếm biết website của bạn có nội dung mới hoặc vừa được cập nhật). Thông báo với máy tìm kiếm Sau sitemap XML đã được tạo ra, nó cần được gửi đến công cụquản trịWebsite Google Webmaster Tools và Bing Webmaster Tools. Thủtục này rất đơn giản. Đây là những gì bạn cần làm với Google:

  1. Đăng nhập vào tài khoản Google Webmaster Tools của bạn.
  2. Tìm đến phần Sitemap, như hình bên:

site map va ress feeds tam quan trong va tai saoSau đó bạn có thể gửi sitemap XML sử dụng nút bấm ở góc trên bên phải của màn hình như hình dưới đây. Sau vài giây, đồ thị sẽ hiển thị cho bạn biết bao nhiêu địa chỉ URL trong sitemap vừa gửi đã được indexsitemap da duoc indexBạn nên bổ sung sitemap vào trong file robots.txt với dòng code như sau:

Sitemap: http://vietmoz.net/Sitemap.xml

Chú ý là tên sitemap không nhất thiết phải là sitemap.xml, vì đôi khi một website có thể có nhiều sitemap, như bạn sẽ thấy dưới đây :

Website lớn 

Nếu bạn quản trị một website lớn, bạn cần biết rằng các máy tìm kiếm, cụ thể là Google có giới hạn về kích thước sitemap. Theo this WebmasterWorld Forum post, kích thước tối đa của sitemap là:

  1. 50,000 URLs, và
  2. 10MB file chưa nén

Do đó, các website lớn thường có nhiều sitemap. Đường link đến các sitemap này được đặt trong một file riêng để máy tìm kiếm tiện khám phá và sử dụng.

Sitemap: http://moz.com/blog-sitemap.xml 

Sitemap: http://moz.com/ugc-sitemap.xml 

Sitemap: http://moz.com/profiles-sitemap.xml 

Sitemap: http://app.wistia.com/sitemaps/2.xml 

HTML Sitemaps

HTML Sitemap là một file chứa tất cảcác đường dẫn URL của một domain. Nó được sửdụng đểgiúp người truy cập dễdàng tìm ra nội dung họmuốn. Nó cũng được sửdụng đểtối ưu hệthống link nội bộ, điều rất cần thiết trong SEO.

Những điều cần tránh 

Theo cuộc phỏng vấn (this interview), với Duane Forrester của Bing từ tháng 09/2011, Bing có thể không còn tin tưởng một sitemap nếu có trên 1% đường dẫn trong đó có lỗi. Duane nói:

Sitemap của bạn phải sạch sẽ. Chúng tôi chỉ cho phép dưới 1% tổng số đường link có lỗi. Lỗi đó có thể là một điều hướng, 1 lỗi 404 hoặc 500. Nếu chúng tôi nhìn thấy con số lỗi quá 1%, chúng tôi sẽ không  còn tin vào sitemap đó nữa.

Những lỗi trong sitemap bao gồm:

  1. Một URL chuyển hướng 301 sang một URL khác
  2. Một URL có lỗi 404
  3. Một URL có lỗi 500 “Server Not Found”

Để kiếm tra sitemap của mình có lỗi không, bạn có thể sử dụng Map Broker. Tải file sitemap của bạn lên và bạn sẽ biết sitemap của mình đạt số điểm bao nhiêu. Hoặc bạn cũng có thể sử dụng Screaming Frog:

RSS feeds: Cách tối ưu

RSS feeds, viết tắt của Real Simple Syndication, tạm dịch chia sẻ tin tức Web đơn giản, thực tế. Đây là cách chia sẻ nội dung phổ biến trên mạng Internet. Nó cho phép người dùng Internet đăng ký với một website để ngay khi web có nội dung mới họ sẽ được thông báo thông qua trình đọc RSS.

Thông tin mà người dùng nhận được bao gồm phần tóm lược nội dung trang web và link đến phiên bản đầy đủ của trang web đó. Thông tin này được cung cấp dưới dạng một tệp tin XML được gọi là 1 RSS Feed.

Vấn đề chính với RSS feed là đảm bảo máy tìm kiếm sẽ không index nó, vì họ đã tuyên bố là không  thích index những nội dung này. Việc này có thể thực hiện như sau:

  1. Thực hiện nofollow tất cảcác link trên RSS
  2. Chèn Disallow: */feed vào file robots.txt. Dòng lệnh này sẽloại trừURL của các feed

Nguồn: VietMoz

 Bài viết nên đọc:

Post comment