Nếu bạn đang dùng một trang web bằng nền tảng WordPress và muốn trang web này được index nhanh hơn thì việc tạo file robots.txt sẽ là giải pháp dành cho bạn.
Vậy file robots.txt là gì? Làm thế nào để tạo file robots.txt cho trang web WordPress chuẩn SEO nhất?
Cùng Tech-One tìm hiểu bài viết dưới đây nhé!
File robots.txt là gì?
File robots.txt được hiểu là một tập tin văn bản đơn giản có dạng .txt thuộc một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot từ những công cụ tìm kiếm) thu thập dữ liệu trên website, truy cập, index nội dung và cung cấp nội dung đó cho user.
Có thể nói, tệp robots.txt giúp cho các nhà quản trị website có thể linh hoạt cũng như chủ động hơn trong việc cho phép các bot Google index nội dung của trang mình.
Vai trò file robots.txt trong seo website
File robots.txt đóng vai trò gì trong việc SEO trang web? Có thể nói việc tạo file robots.txt sẽ giúp các admin của trang web có thể kiểm soát được việc truy cập của các bot đến các khu vực nhất định trên trang web của bạn. Tuy nhiên, các SEOer cũng nên lưu ý rằng nếu như sai vài thao tác thì có thể khiến các bot google không index trang web của bạn. Mặc dù vậy, việc tạo file robots.txt vẫn thật sự hữu ích bởi nhiều lý do, cụ thể:
- Chặn trùng lặp nội dung trên website
- Giữ một số phần của website ở chế độ “private” (riêng tư)
- Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên bảng xếp hạng Google
- Chỉ định vị trí của Sitemap
- Không để Google index một số tệp trên website
- Dùng lệnh Crawl-delay để cài đặt thời gian, việc này sẽ giúp cho máy chủ không bị quá tải khi thu thập dữ liệu cùng lúc.
>>>Đọc thêm: Hướng dẫn cách tạo sitemap cho website và Mẹo tối ưu SEO hiệu quả.
Cấu hình file robots txt chuẩn seo ( submit robots txt to google )
Cấu hình file robots.txt có 5 thuật ngữ phổ biến mà các SEOer sẽ bắt gặp trong một file robots.txt, cụ thể:
- User-agent: là tên của các trình thu thập, truy cập dữ liệu trang web (ví dụ: Googlebot, Bingbot,…)
- Disallow: được dùng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Lưu ý, mỗi URL chỉ dùng một dòng Disallow.
- Allow : là lệnh thực hiện thông báo cho Googlebot sẽ truy cập trang hoặc thư mục con.
- Crawl-delay: Thông báo cho các Web Crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, các SEOer nên nhớ rằng bot google không nhận lệnh này, các SEOer cần cài đặt Google Search Console.
- Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này.
Pattern – Matching
Có thể nói khi dùng tính năng Pattern-Matching, các tệp robots.txt có cấu trúc khá phức tạp. Hầu hết các công cụ của Google và Bing cho phép sử dụng 2 biểu thức chính để xác định các trang hoặc thư mục con mà SEOer muốn loại trừ. Hai kí tự này là dấu hoa thị (*) và ký hiệu đô la ($).
- là ký tự đại diện cho bất kỳ chuỗi ký tự nào, được áp dụng dụng cho hầu hết các loại bot Google
- $ là ký tự khớp với phần cuối của URL.
Định dạng cơ bản của file robots.txt
Tệp robots.txt có định dạng cơ bản sau:
User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:
File robots.txt chuẩn
File Robots.txt chuẩn nhằm để chặn tất cả các Web Crawler không được thu thập bất kỳ một dữ liệu nào trên website bao gồm cả trang chủ. Các SEOer có thể dùng cú pháp như sau:
User-agent: *
Disallow: /
Để cho phép tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên website bao gồm cả trang chủ, dùng cú pháp sau:
User-agent: *
Disallow:
Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) sẽ không thu thập bất kỳ trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Dùng cú pháp sau:
User-agent: Googlebot
Disallow: /example-subfolder/
Để chặn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại http://www.example.com/example-subfolder/blocked-page, dùng cú pháp sau:
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
Ví dụ cho file robots.txt chuẩn
User-agent: *
Disallow: /wp-admin/
Allow: /
Sitemap: https://www.example.com/sitemap_index.xml
Một số ví dụ về cách tùy chỉnh file robots.txt
Chặn thu thập dữ liệu từ bất kỳ đâu
Để chặn các công cụ tìm kiếm truy cập vào website hay một thư mục cụ thể nào đó thì các SEOer cần chú ý vào các quy tắc sau:
Cho phép thu thập tất cả dữ liệu trên trang
Quá trình thu thập thông tin và lập chỉ mục của một trang web lớn sẽ tốn rất nhiều tài nguyên dẫn đến việc có thể gây ra các vấn đề hiệu năng nghiêm trọng. Để xử lý trong trường hợp này, các SEOer cần dùng tệp robots.txt để hạn chế quyền truy cập vào một số phần nhất định của website để giảm tải trên máy chủ cho toàn bộ quá trình lập chỉ mục..
Tùy chỉnh robots.txt chặn thu thập một thư mục nhất định
Khi các SEOer không muốn bot Google lập chỉ mục ở một số trang hoặc thư mục cụ thể thì việc dùng tệp robots.txt tùy chỉnh là một trong những cách được nhiều SEOer lựa chọn.
Cách nhận biết Robots.txt, thẻ meta robot và x-robot
Meta Robot
Robots Meta Tags hay còn được gọi là Robots Tags, là một đoạn mã code HTML được đặt trong phần <head> </head> dùng để kiểm soát cách công cụ tìm kiếm thu thập thông tin và lập chỉ mục URL.
Ví dụ:
<meta name=”robots” content=”noindex” />
Robots meta tags được dùng để kiểm soát cách việc Google index nội dung trang một cách nhanh chóng. Đọc bài viết để biết thêm chi tiết về Thẻ Meta tag là gì? Meta Tag có thật sự ảnh hưởng đến SEO và Cách tối ưu thẻ Meta hiệu quả chuẩn SEO.
X-robots
X-robots dùng phức tạp hơn thẻ meta robot cho phép SEOer hướng các công cụ tìm kiếm cách lập chỉ mục và thu thập thông tin các loại tệp khác.
Sử dụng X-Robots-Tag khi:
- SEOer cần kiểm soát cách công cụ tìm kiếm thu thập thông tin và lập chỉ mục các loại tệp không phải HTML.
- SEOer cần cung cấp chỉ thị ở cấp độ toàn cầu (trang web) chứ không phải ở cấp độ trang.
Lưu ý khi sử dụng file robots.txt
Khi dùng tập robots.txt, các SEOer cần lưu ý những điều sau, cụ thể:
Các liên kết trên trang bị chặn bởi việc robots.txt sẽ không được các bot theo dõi.
Link juice sẽ không được truyền từ các trang bị chặn đến các trang đích. Vậy nên, muốn dùng link juice, các SEOer cần dùng phương pháp khác thay vì tạo robots.txt.
Để chặn trang web xuất hiện trên kết quả tìm kiếm, các SEOer có thể dùng một phương pháp khác thay vì tạo file robots.txt như dùng mật khẩu bảo vệ hay noindex meta directive.
Kết luận
Tóm lại, việc hiểu đúng về quy trình quản lý thu thập thông tin và lập chỉ mục cho trang web là nền tảng giúp các SEOer có thể đi nhanh hơn trong chiến dịch SEO của mình.
Hi vọng qua bài viết này sẽ giúp các SEOer có thể biết được file robots.txt là gì cũng như cách tạo file robots.txt chuẩn SEO.
Đừng quên theo dõi các thông tin mới nhất từ Trang Blog SEO của Tech-One để có cho mình thật nhiều kiến thức bổ ích nhất nhé!!!
Cảm ơn các bạn!
>>>Đọc thêm: Technical SEO là gì? Hướng dẫn tối ưu Technical SEO mà các SEOer cần biết.