Khi một search engine tìm đến web site nào đó trước tiên nó phải kiếm tập tin robots.txt. Vậy tập tin robots.txt là gì ?
Tập tin robots.txt là một file dạng text bình thường (có thể dùng trình
soạn thảo Notepad để tạo ra) nó chứa nội dung quy định các seach engine
được phép hay không được phép truy cập vào một file hay một thư mục của
một web site.
Robots.txt được lưu ở thư mục gốc của web site.
Trong đó User-agent: là đại diện của một search engine, như Googlebot
search engine của Google. Trong trong trường hợp này Googlebot là được
phép index website. Disallow: là không cho phép thực hiện điều gì đó. Ở
ví dụ trên là không cho phép index thư mục “cgi-bin” trong web site.
Nếu bạn muốn tất cả các search engine có thể index web site của bạn,
nhưng không được index các trang trong thư mục “cgi-bin” thì sử dụng
lệnh sau:
User-agent: *
Disallow: /cgi-bin/
Những điều nên tránh:
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:
“Disallow: support # Don’t index the support directory”
+ Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:
User-agent: *
Disallow: /cgi-bin/
+Không thay đổi trật tự của các dòng lệnh. Ví dụ:
Disallow: /support
User-agent: *
+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:
User-agent: *
Disallow: /support /cgi-bin/ images/
các search engine không hiểu định dạng trên. bạn nên viết thế này:
User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/
+Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng. Ví dụ, thư
mục của bạn là “cgi-bin” (viết thường, không viết hoa), nhưng khí vào
lệnh, bạn lại viết là “Cgi-Bin” thì các search engine không hiểu được.
+ Không nên dùng lệnh Allow trong file robots.txt, bởi vì trong web
site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn
không muốn bị người khác “nhòm ngó”. nếu bạn sử dụng lệnh Allow, tất cả
mọi ngóc ngách trong web site của bạn sẽ bị index!
Bạn có thể kiểm tra file robots.txt của site bằng cách vào Webmaster
Tools của google (phải đăng nhập tài khoản) vào Site
configuration->Crawler access.
Copy nội dung file robots.txt dán vào ô đâu tiên. Nhấn vào nút Test. Kết quả sẽ hiển thị ở dưới cùng.
(Sưu tầm)
Copy nội dung file robots.txt dán vào ô đâu tiên. Nhấn vào nút Test. Kết quả sẽ hiển thị ở dưới cùng.
(Sưu tầm)
Không có nhận xét nào:
Đăng nhận xét