Robots.txt là gì? Hướng dẫn đầy đủ và dễ hiểu cho người mới bắt đầu

Thứ năm, 08/05/2025, 14:09 GMT+7

Khi bạn bắt đầu làm SEO hay quản lý một website, một trong những thuật ngữ bạn sẽ sớm gặp phải là robots.txt. Đây là một tệp nhỏ nhưng có vai trò rất quan trọng trong việc hướng dẫn các công cụ tìm kiếm cách thu thập dữ liệu trên website của bạn.

 

Trong bài viết này, chúng ta sẽ tìm hiểu:

  • Robots.txt là gì?

  • Robots.txt dùng để làm gì?

  • Cấu trúc cơ bản của file robots.txt

  • Ví dụ minh họa

  • Những lưu ý quan trọng khi sử dụng robots.txt

 

Robots.txt là gì?

Robots.txt là một tệp văn bản được đặt tại thư mục gốc của website (ví dụ: www.tenmien.com/robots.txt). Tệp này hướng dẫn các robot (bots) của công cụ tìm kiếm như Google, Bing… biết những phần nào của website được phép hoặc không được phép thu thập dữ liệu (crawl).

Nói cách khác, robots.txt là tấm bản đồ chỉ đường cho các bot khi chúng truy cập website của bạn.

 

Robots.txt dùng để làm gì?

Một số công dụng chính của tệp robots.txt bao gồm:

  • Chặn bot truy cập các trang không cần thiết (như trang admin, trang giỏ hàng, v.v.)

  • Tiết kiệm tài nguyên crawl cho các trang quan trọng hơn

  • Hạn chế lập chỉ mục (index) những nội dung trùng lặp hoặc không cần thiết trên Google

  • Hướng dẫn bot tới sơ đồ trang web (sitemap.xml)

 

Cấu trúc cơ bản của robots.txt

Cấu trúc của tệp robots.txt khá đơn giản, gồm 2 thành phần chính:

  • User-agent: xác định bot nào đang được áp dụng quy tắc

  • Disallow / Allow: xác định đường dẫn bị chặn hoặc được phép truy cập

 

Ví dụ 1: Chặn toàn bộ bot truy cập vào thư mục /admin

User-agent: *
Disallow: /admin/

 

Ví dụ 2: Cho phép toàn bộ bot truy cập toàn website

User-agent: *
Disallow:

 

Ví dụ 3: Chỉ áp dụng cho bot Google

User-agent: Googlebot
Disallow: /private/

 

Hướng dẫn tạo và kiểm tra robots.txt

Cách tạo tệp robots.txt:

  1. Mở Notepad hoặc trình soạn thảo văn bản bất kỳ.

  2. Gõ nội dung theo cú pháp như trên.

  3. Lưu tệp với tên robots.txt.

  4. Tải lên thư mục gốc của website (ví dụ: www.tenmien.com/robots.txt).

 

Cách kiểm tra tệp robots.txt:

Bạn có thể sử dụng công cụ kiểm tra robots.txt của Google Search Console để biết tệp robots.txt có lỗi cú pháp hoặc chặn sai nội dung không.

 

Những lưu ý quan trọng

  • Robots.txt không đảm bảo 100% nội dung bị ẩn khỏi Google. Muốn chặn tuyệt đối, bạn nên dùng thẻ noindex hoặc xác thực quyền truy cập.

  • Tránh chặn các tài nguyên CSS/JS quan trọng, vì điều đó có thể ảnh hưởng đến khả năng hiển thị trang của bạn trên kết quả tìm kiếm.

  • Luôn kiểm tra lại sau khi thay đổi robots.txt để đảm bảo không chặn nhầm trang quan trọng.

 

Kết luận

Robots.txt là một công cụ SEO kỹ thuật quan trọng giúp bạn quản lý hiệu quả việc thu thập dữ liệu của các công cụ tìm kiếm. Dù nhỏ gọn và dễ tạo, nhưng nếu sử dụng sai có thể gây ảnh hưởng xấu đến hiệu suất SEO của website. Vì vậy, hãy hiểu rõ và sử dụng robots.txt một cách thận trọng.



 
 

« Trở về trang chủ thiết kế web TRUST.vn