Robots.txt là gì? Tạo file Robots.txt chuẩn SEO đơn giản

Robots.txt là gì? Tạo file Robots.txt chuẩn SEO đơn giản

Robots.txt là gì

Robots.txt là gì? Tạo file Robots.txt chuẩn SEO đơn giản

Robots.txt chính là công cụ được tạo ra để giúp bạn quản lý website hiệu quả hơn. Vậy Robots.txt là gì? Cách tạo Robots.txt chuẩn SEO ở WordPress và các cách sử dụng Robots.txt cực kì đơn giản sẽ có ngay trong bài viết này.

Robots.txt là gì?

Robots.txt chính là một tệp văn bản hoặc một dạng text khá đơn giản, được chứa trong thư mục gốc của 1 website. Robots.txt thực hiện việc hướng dẫn cho các công cụ tìm kiếm cách tập hợp thông tin. Robots.txt thu thập thông tin bằng cách tạo các chỉ mục được phép hay không được phép thu thập thông tin từ website đó. Nói một cách dễ hiểu, nhờ có file Robots.txt, chúng ta có thể chặn các phương tiện truy cập copy thông tin từ website của mình.

Mục đích dùng tệp Robot.txt là gì

Trang web

Với trang web (HTML hoặc các định dạng mà Google hiểu được), robots.txt được dùng để kiểm soát lưu lượng thu thập data hoặc được sử dụng để chặn việc thu thập những data. Không nên dùng tệp robots.txt như là công cụ giấu trang web khỏi các kết quả tìm kiếm bởi Google, Cốc Cốc…vẫn có thể tạo các chỉ mục mà không cần cho phép truy cập trang. Nếu muốn ẩn trang web trên công các công cụ tìm kiếm, bạn có thể sử dụng mật khẩu để bảo vệ.

Robots.txt quan trọng với website

 Robots.txt có thể chặn các phương tiện truy cập copy thông tin từ website của mình

Tệp tài nguyên

Có thể dùng robots.txt để ngăn các file tài nguyên như hình ảnh hoặc các tếp không cần thiết. Nhưng nếu việc không đủ các tài nguyên làm cho Google không hiểu được trang web của bạn, bạn không nên ngăn chặn chúng bởi gì Google sẽ không hoàn thành tốt việc đọc những trang yêu cầu các tài nguyên của bạn.

Cách Tạo File Robots.txt Cho WordPress

  • Click vào Dashboard > SEO > Tools/Dashboard > Tools > Yoast SEO
  • Click vào “File Editor” ở trang Yoast SEO.
  • Click vào “Create robots.txt file”
  • Tạo file của bạn hoặc chỉnh sửa
  • Click vào “Save changes to robots.txt” để lưu lại

Cú pháp của file robots.txt là gì

Cú pháp robots.txt là gì

Cú pháp thông dụng của Robots.txt

Cú pháp của Robots.txt chính là ngôn ngữ của những file robot.txt. Các từ hay gặp là:
  • User-agent:  tên của công cụ tìm kiếm mà bạn muốn kiểm soát, ví dụ: Google bot, Bingbot, Cốc Cốc Bot)
  • Disallow: Khu vực không cho công cụ tìm kiếm truy cập. Ví dụ: Khi muốn chặn thu thập dữ liệu của trang www.3cmar.com/blog thì cấu trúc sẽ là: Disallow: /blog
  • Allow : Khu vực Googlebot có thể truy cập.
  • Crawl-delay: Thông số tính bằng giây. Buộc bot phải chờ một khoảng thời gian trước khi chuyển sang nơi khác. Ngăn chặn các công cụ tìm kiếm load các server tùy tiện.
  • Sitemap: Được hiểu là sơ đồ web. File Robots.txt chứa Sitemap giúp bot thu thập data nhanh hơn.

Cách sử dụng file Robot.txt

Ngăn bot truy cập vào file.

  • User-agent: * : Cho bot truy cập vào.
  • Disallow: /blog-marketing/ : Chặn bot truy cập vào file có link /blog-marketing
  • Disallow: /kien-thuc/ : Chặn bot truy cập vào file có link /kien-thuc

Khóa cả website để bot không thể tạo các chỉ mục

  • User-agent: * : Cho bot truy cập vào.
  • Disallow: / : Chặn bot truy cập các tài nguyên đang có trên web mình.

Chặn 1 trang

  • User-agent: * : Cho bot truy cập vào..
  • Disallow: /lienhe.html : Ngăn bot truy cập trang lienhe.html

Chặn bot bất kỳ

Cú pháp chặn Bot bất kì của Robots.txt

Cú pháp chặn Bot bất kỳ

  • User-agent: bot1
  • Disallow: /
  • User-agent: bot2
  • Disallow: /wp-admin/
  • Disallow: /wp-private/
Bot1 có thể truy cập  hết các tài nguyên. Bot2 truy cập hết các tài nguyên ngoài 2 thư mục không được truy cập: “wp-admin và wp-private”.

Dùng cú pháp “Allow” và “Disallow” đồng thời

  • User-agent: *
  • Disallow: /admin/
  • Allow: /private/

Các lưu ý khi bạn dùng Robot.txt là gì?

Khi sử dụng robot.txt, chúng ta cần chú ý 5 điều sau:
  • Chữ hoa và chữ thường
  • Cấu trúc câu lệnh đúng
  • Không được có thêm các ký tự đặc biệt
  • Mỗi câu lệnh viết ở một dòng
  • Phía trước câu lệnh không có bất kì khoảng trắng nào
Trên đây là toàn bộ những thông tin cơ bản về robots.txt. Hy vọng qua bài viết này, bạn đã hiểu rõ robots.txt là gì. Bạn cũng có thể dựa vào bài viết để tự làm một file robots.txt  hoàn chỉnh và tự chủ động trong việc xây dựng, phát triển Website của mình. Xem thêm các bài viết về Marketing Online tại đây: Blog Của 3C MAR

Share this post

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *