Robots.txt là gì? Tạo file Robots.txt chuẩn SEO đơn giản
Mục Lục
Robots.txt là gì?
Robots.txt chính là một tệp văn bản hoặc một dạng text khá đơn giản, được chứa trong thư mục gốc của 1 website. Robots.txt thực hiện việc hướng dẫn cho các công cụ tìm kiếm cách tập hợp thông tin. Robots.txt thu thập thông tin bằng cách tạo các chỉ mục được phép hay không được phép thu thập thông tin từ website đó. Nói một cách dễ hiểu, nhờ có file Robots.txt, chúng ta có thể chặn các phương tiện truy cập copy thông tin từ website của mình.Mục đích dùng tệp Robot.txt là gì
Trang web
Với trang web (HTML hoặc các định dạng mà Google hiểu được), robots.txt được dùng để kiểm soát lưu lượng thu thập data hoặc được sử dụng để chặn việc thu thập những data. Không nên dùng tệp robots.txt như là công cụ giấu trang web khỏi các kết quả tìm kiếm bởi Google, Cốc Cốc…vẫn có thể tạo các chỉ mục mà không cần cho phép truy cập trang. Nếu muốn ẩn trang web trên công các công cụ tìm kiếm, bạn có thể sử dụng mật khẩu để bảo vệ.Robots.txt có thể chặn các phương tiện truy cập copy thông tin từ website của mình
Tệp tài nguyên
Có thể dùng robots.txt để ngăn các file tài nguyên như hình ảnh hoặc các tếp không cần thiết. Nhưng nếu việc không đủ các tài nguyên làm cho Google không hiểu được trang web của bạn, bạn không nên ngăn chặn chúng bởi gì Google sẽ không hoàn thành tốt việc đọc những trang yêu cầu các tài nguyên của bạn.Cách Tạo File Robots.txt Cho WordPress
- Click vào Dashboard > SEO > Tools/Dashboard > Tools > Yoast SEO
- Click vào “File Editor” ở trang Yoast SEO.
- Click vào “Create robots.txt file”
- Tạo file của bạn hoặc chỉnh sửa
- Click vào “Save changes to robots.txt” để lưu lại
Cú pháp của file robots.txt là gì

Cú pháp thông dụng của Robots.txt
Cú pháp của Robots.txt chính là ngôn ngữ của những file robot.txt. Các từ hay gặp là:- User-agent: tên của công cụ tìm kiếm mà bạn muốn kiểm soát, ví dụ: Google bot, Bingbot, Cốc Cốc Bot)
- Disallow: Khu vực không cho công cụ tìm kiếm truy cập. Ví dụ: Khi muốn chặn thu thập dữ liệu của trang www.3cmar.com/blog thì cấu trúc sẽ là: Disallow: /blog
- Allow : Khu vực Googlebot có thể truy cập.
- Crawl-delay: Thông số tính bằng giây. Buộc bot phải chờ một khoảng thời gian trước khi chuyển sang nơi khác. Ngăn chặn các công cụ tìm kiếm load các server tùy tiện.
- Sitemap: Được hiểu là sơ đồ web. File Robots.txt chứa Sitemap giúp bot thu thập data nhanh hơn.
Cách sử dụng file Robot.txt
Ngăn bot truy cập vào file.
- User-agent: * : Cho bot truy cập vào.
- Disallow: /blog-marketing/ : Chặn bot truy cập vào file có link /blog-marketing
- Disallow: /kien-thuc/ : Chặn bot truy cập vào file có link /kien-thuc
Khóa cả website để bot không thể tạo các chỉ mục
- User-agent: * : Cho bot truy cập vào.
- Disallow: / : Chặn bot truy cập các tài nguyên đang có trên web mình.
Chặn 1 trang
- User-agent: * : Cho bot truy cập vào..
- Disallow: /lienhe.html : Ngăn bot truy cập trang lienhe.html
Chặn bot bất kỳ

Cú pháp chặn Bot bất kỳ
- User-agent: bot1
- Disallow: /
- User-agent: bot2
- Disallow: /wp-admin/
- Disallow: /wp-private/
Dùng cú pháp “Allow” và “Disallow” đồng thời
- User-agent: *
- Disallow: /admin/
- Allow: /private/
Các lưu ý khi bạn dùng Robot.txt là gì?
Khi sử dụng robot.txt, chúng ta cần chú ý 5 điều sau:- Chữ hoa và chữ thường
- Cấu trúc câu lệnh đúng
- Không được có thêm các ký tự đặc biệt
- Mỗi câu lệnh viết ở một dòng
- Phía trước câu lệnh không có bất kì khoảng trắng nào
Trả lời