Thứ Năm, 20 tháng 9, 2012

Bí Quyết Seo - Cách cấu hình file robots.txt tốt cho SEO Website

Khi một search engine tìm đến web site nào đó trước tiên nó phải kiếm tập tin robots.txt. Vậy tập tin robots.txt là gì ?
 
Tập tin robots.txt là một file dạng text bình thường (có thể dùng trình soạn thảo Notepad để tạo ra) nó chứa nội dung quy định các seach engine được phép hay không được phép truy cập vào một file hay một thư mục của một web site.                     Cách cấu hình file robots.txt tốt cho SEO
 
Robots.txt được lưu ở thư mục gốc của web site.
Ví dụ như : http://sitename.com/robots.txt

User-agent: googlebot

Disallow: /cgi-bin/
Trong đó User-agent: là đại diện của một search engine, như Googlebot search engine của Google. Trong trong trường hợp này Googlebot là được phép index website. Disallow: là không cho phép thực hiện điều gì đó. Ở ví dụ trên là không cho phép index thư mục “cgi-bin” trong web site.
Nếu bạn muốn tất cả các search engine có thể index web site của bạn, nhưng không được index các trang trong thư mục “cgi-bin” thì sử dụng lệnh sau:
User-agent: *
Disallow: /cgi-bin/
Những điều nên tránh:
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:
“Disallow: support # Don’t index the support directory”
+ Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:
User-agent: *
Disallow: /cgi-bin/
+Không thay đổi trật tự của các dòng lệnh. Ví dụ:
Disallow: /support
User-agent: *
+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:
User-agent: *
Disallow: /support /cgi-bin/ images/
các search engine không hiểu định dạng trên. bạn nên viết thế này:
User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/
+Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng. Ví dụ, thư mục của bạn là “cgi-bin” (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là “Cgi-Bin” thì các search engine không hiểu được.
+ Không nên dùng lệnh Allow trong file robots.txt, bởi vì trong web site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác “nhòm ngó”. nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong web site của bạn sẽ bị index!
Bạn có thể kiểm tra file robots.txt của site bằng cách vào Webmaster Tools của google (phải đăng nhập tài khoản) vào Site configuration->Crawler access.
Copy nội dung file robots.txt dán vào ô đâu tiên. Nhấn vào nút Test. Kết quả sẽ hiển thị ở dưới cùng.
 
 (Sưu tầm)

Không có nhận xét nào:

Đăng nhận xét