Khi bạn bắt đầu làm SEO hay quản lý một website, một trong những thuật ngữ bạn sẽ sớm gặp phải là robots.txt. Đây là một tệp nhỏ nhưng có vai trò rất quan trọng trong việc hướng dẫn các công cụ tìm kiếm cách thu thập dữ liệu trên website của bạn.
Trong bài viết này, chúng ta sẽ tìm hiểu:
Robots.txt là gì?
Robots.txt dùng để làm gì?
Cấu trúc cơ bản của file robots.txt
Ví dụ minh họa
Những lưu ý quan trọng khi sử dụng robots.txt
Robots.txt là một tệp văn bản được đặt tại thư mục gốc của website (ví dụ: www.tenmien.com/robots.txt). Tệp này hướng dẫn các robot (bots) của công cụ tìm kiếm như Google, Bing… biết những phần nào của website được phép hoặc không được phép thu thập dữ liệu (crawl).
Nói cách khác, robots.txt là tấm bản đồ chỉ đường cho các bot khi chúng truy cập website của bạn.
Một số công dụng chính của tệp robots.txt bao gồm:
Chặn bot truy cập các trang không cần thiết (như trang admin, trang giỏ hàng, v.v.)
Tiết kiệm tài nguyên crawl cho các trang quan trọng hơn
Hạn chế lập chỉ mục (index) những nội dung trùng lặp hoặc không cần thiết trên Google
Hướng dẫn bot tới sơ đồ trang web (sitemap.xml)
Cấu trúc của tệp robots.txt khá đơn giản, gồm 2 thành phần chính:
User-agent
: xác định bot nào đang được áp dụng quy tắc
Disallow
/ Allow
: xác định đường dẫn bị chặn hoặc được phép truy cập
Ví dụ 1: Chặn toàn bộ bot truy cập vào thư mục /admin
User-agent: *
Disallow: /admin/
Ví dụ 2: Cho phép toàn bộ bot truy cập toàn website
User-agent: *
Disallow:
Ví dụ 3: Chỉ áp dụng cho bot Google
User-agent: Googlebot
Disallow: /private/
Cách tạo tệp robots.txt:
Mở Notepad hoặc trình soạn thảo văn bản bất kỳ.
Gõ nội dung theo cú pháp như trên.
Lưu tệp với tên robots.txt
.
Tải lên thư mục gốc của website (ví dụ: www.tenmien.com/robots.txt
).
Bạn có thể sử dụng công cụ kiểm tra robots.txt của Google Search Console để biết tệp robots.txt có lỗi cú pháp hoặc chặn sai nội dung không.
Robots.txt không đảm bảo 100% nội dung bị ẩn khỏi Google. Muốn chặn tuyệt đối, bạn nên dùng thẻ noindex
hoặc xác thực quyền truy cập.
Tránh chặn các tài nguyên CSS/JS quan trọng, vì điều đó có thể ảnh hưởng đến khả năng hiển thị trang của bạn trên kết quả tìm kiếm.
Luôn kiểm tra lại sau khi thay đổi robots.txt để đảm bảo không chặn nhầm trang quan trọng.
Robots.txt là một công cụ SEO kỹ thuật quan trọng giúp bạn quản lý hiệu quả việc thu thập dữ liệu của các công cụ tìm kiếm. Dù nhỏ gọn và dễ tạo, nhưng nếu sử dụng sai có thể gây ảnh hưởng xấu đến hiệu suất SEO của website. Vì vậy, hãy hiểu rõ và sử dụng robots.txt một cách thận trọng.
« Trở về trang chủ thiết kế web TRUST.vn