File Robots txt là gì? Cách tạo file robots.txt cho website wordpress chuẩn SEO

File Robots.txt là gì

Nếu bạn đang dùng một trang web bằng nền tảng WordPress và muốn trang web này được index nhanh hơn thì việc tạo file robots.txt sẽ là giải pháp dành cho bạn.

Vậy file robots.txt là gì? Làm thế nào để tạo file robots.txt cho trang web WordPress chuẩn SEO nhất?

Cùng Tech-One tìm hiểu bài viết dưới đây nhé!

File robots.txt là gì?

File robots.txt được hiểu là một tập tin văn bản đơn giản có dạng .txt thuộc một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot từ những công cụ tìm kiếm) thu thập dữ liệu trên website, truy cập, index nội dung và cung cấp nội dung đó cho user.

File Robots.txt là gì
File Robots.txt là gì

Có thể nói, tệp robots.txt giúp cho các nhà quản trị website có thể linh hoạt cũng như chủ động hơn trong việc cho phép các bot Google index nội dung của trang mình.

Vai trò file robots.txt trong seo website

File robots.txt đóng vai trò gì trong việc SEO trang web? Có thể nói việc tạo file robots.txt sẽ giúp các admin của trang web có thể kiểm soát được việc truy cập của các bot đến các khu vực nhất định trên trang web của bạn. Tuy nhiên, các SEOer cũng nên lưu ý rằng nếu như sai vài thao tác thì có thể khiến các bot google không index trang web của bạn. Mặc dù vậy, việc tạo file robots.txt vẫn thật sự hữu ích bởi nhiều lý do, cụ thể:

  • Chặn trùng lặp nội dung trên website
  • Giữ một số phần của website ở chế độ “private” (riêng tư)
  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên bảng xếp hạng Google
  • Chỉ định vị trí của Sitemap
  • Không để Google index một số tệp trên website
  • Dùng lệnh Crawl-delay để cài đặt thời gian, việc này sẽ giúp cho máy chủ không bị quá tải khi thu thập dữ liệu cùng lúc.

>>>Đọc thêm: Hướng dẫn cách tạo sitemap cho website và Mẹo tối ưu SEO hiệu quả.

Cấu hình file robots txt chuẩn seo ( submit robots txt to google )

Cấu hình file robots txt chuẩn seo ( submit robots txt to google )
Cấu hình file robots txt chuẩn seo (submit robots txt to google )

Cấu hình file robots.txt có 5 thuật ngữ phổ biến mà các SEOer sẽ bắt gặp trong một file robots.txt, cụ thể:

  • User-agent: là tên của các trình thu thập, truy cập dữ liệu trang web (ví dụ: Googlebot, Bingbot,…)
  • Disallow: được dùng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Lưu ý, mỗi URL chỉ dùng một dòng Disallow.
  • Allow : là lệnh thực hiện thông báo cho Googlebot sẽ truy cập trang hoặc thư mục con.
  • Crawl-delay: Thông báo cho các Web Crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, các SEOer nên nhớ rằng bot google không nhận lệnh này, các SEOer cần cài đặt Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này.

Pattern – Matching

Có thể nói khi dùng tính năng Pattern-Matching, các tệp robots.txt có cấu trúc khá phức tạp. Hầu hết các công cụ của Google và Bing cho phép sử dụng 2 biểu thức chính để xác định các trang hoặc thư mục con mà SEOer muốn loại trừ. Hai kí tự này là dấu hoa thị (*) và ký hiệu đô la ($).

  • là ký tự đại diện cho bất kỳ chuỗi ký tự nào, được áp dụng dụng cho hầu hết các loại bot Google
  • $ là ký tự khớp với phần cuối của URL.

Định dạng cơ bản của file robots.txt

Tệp robots.txt có định dạng cơ bản sau:

User-agent:

Disallow:

Allow:

Crawl-delay:

Sitemap:

File robots.txt chuẩn

File Robots.txt chuẩn nhằm để chặn tất cả các Web Crawler không được thu thập bất kỳ một dữ liệu nào trên website bao gồm cả trang chủ. Các SEOer có thể dùng cú pháp như sau:

User-agent: *

Disallow: /

Để cho phép tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên website bao gồm cả trang chủ, dùng cú pháp sau:

User-agent: *

Disallow:

Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) sẽ không thu thập bất kỳ trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Dùng cú pháp sau:

User-agent: Googlebot

Disallow: /example-subfolder/

Để chặn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại http://www.example.com/example-subfolder/blocked-page, dùng cú pháp sau:

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Ví dụ cho file robots.txt chuẩn

User-agent: *

Disallow: /wp-admin/

Allow: /

Sitemap: https://www.example.com/sitemap_index.xml

Một số ví dụ về cách tùy chỉnh file robots.txt

Ví dụ về file robots.txt
Ví dụ về file robots.txt

Chặn thu thập dữ liệu từ bất kỳ đâu

Để chặn các công cụ tìm kiếm truy cập vào website hay một thư mục cụ thể nào đó thì các SEOer cần chú ý vào các quy tắc sau:

Cho phép thu thập tất cả dữ liệu trên trang

Quá trình thu thập thông tin và lập chỉ mục của một trang web lớn sẽ tốn rất nhiều tài nguyên dẫn đến việc có thể gây ra các vấn đề hiệu năng nghiêm trọng. Để xử lý trong trường hợp này, các SEOer cần dùng tệp robots.txt để hạn chế quyền truy cập vào một số phần nhất định của website để giảm tải trên máy chủ cho toàn bộ quá trình lập chỉ mục..

Tùy chỉnh robots.txt chặn thu thập một thư mục nhất định

Khi các SEOer không muốn bot Google lập chỉ mục ở một số trang hoặc thư mục cụ thể thì việc dùng tệp robots.txt tùy chỉnh là một trong những cách được nhiều SEOer lựa chọn.

Cách nhận biết Robots.txt, thẻ meta robot và x-robot

Cách nhận biết Robots.txt, thẻ meta và xrobot
Cách nhận biết Robots.txt, thẻ meta và xrobot

Meta Robot

Robots Meta Tags hay còn được gọi là Robots Tags, là một đoạn mã code HTML được đặt trong phần <head> </head> dùng để kiểm soát cách công cụ tìm kiếm thu thập thông tin và lập chỉ mục URL.

Ví dụ:

<meta name=”robots” content=”noindex” />

Robots meta tags được dùng để kiểm soát cách việc Google index nội dung trang một cách nhanh chóng. Đọc bài viết để biết thêm chi tiết về Thẻ Meta tag là gì? Meta Tag có thật sự ảnh hưởng đến SEO và Cách tối ưu thẻ Meta hiệu quả chuẩn SEO.

X-robots

X-robots dùng phức tạp hơn thẻ meta robot cho phép SEOer hướng các công cụ tìm kiếm cách lập chỉ mục và thu thập thông tin các loại tệp khác.

Sử dụng X-Robots-Tag khi:

  • SEOer cần kiểm soát cách công cụ tìm kiếm thu thập thông tin và lập chỉ mục các loại tệp không phải HTML.
  • SEOer cần cung cấp chỉ thị ở cấp độ toàn cầu (trang web) chứ không phải ở cấp độ trang.

Lưu ý khi sử dụng file robots.txt

Khi dùng tập robots.txt, các SEOer cần lưu ý những điều sau, cụ thể:

Các liên kết trên trang bị chặn bởi việc robots.txt sẽ không được các bot theo dõi.

Link juice sẽ không được truyền từ các trang bị chặn đến các trang đích. Vậy nên, muốn dùng link juice, các SEOer cần dùng phương pháp khác thay vì tạo robots.txt.

Để chặn trang web xuất hiện trên kết quả tìm kiếm, các SEOer có thể dùng một phương pháp khác thay vì tạo file robots.txt như dùng mật khẩu bảo vệ hay noindex meta directive.

Kết luận

Tóm lại, việc hiểu đúng về quy trình quản lý thu thập thông tin và lập chỉ mục cho trang web là nền tảng giúp các SEOer có thể đi nhanh hơn trong chiến dịch SEO của mình.
Hi vọng qua bài viết này sẽ giúp các SEOer có thể biết được file robots.txt là gì cũng như cách tạo file robots.txt chuẩn SEO.

Đừng quên theo dõi các thông tin mới nhất từ Trang Blog SEO của Tech-One để có cho mình thật nhiều kiến thức bổ ích nhất nhé!!!

Cảm ơn các bạn!

>>>Đọc thêm: Technical SEO là gì? Hướng dẫn tối ưu Technical SEO mà các SEOer cần biết.

How useful was this post?

Click on a star to rate it!

Average rating 0 / 5. Vote count: 0

No votes so far! Be the first to rate this post.

Tham khảo cách đạt mục tiêu doanh nghiệp ngay tại đây.

Đạt truy cập khủng NGAY BÂY GIỜ!

Chào bạn, tôi là Colin! Tôi muốn giúp doanh nghiệp bạn phát triển tối ưu. Bạn đã sẵn sàng cho thành công của mình chưa?

    About Colin VN

    Về Colin

    Tôi là Colin, CEO của Tech-One, một công ty hàng đầu trong lĩnh vực tiếp thị số tại Việt Nam.

    Đội ngũ của chúng tôi luôn đem đến chiến lược thông minh giúp tăng khách hàng tiềm năng, đạt lượng truy cập lớn và doanh
    thu khủng.

    Đạt truy cập khủng NGAY BÂY GIỜ!

    Chào bạn, tôi là Colin! Tôi muốn giúp doanh nghiệp bạn phát triển tối ưu. Bạn đã sẵn sàng cho thành công của mình chưa?

      BÀI VIẾT GẦN ĐÂY

      Hướng Dẫn Cơ Bản Về Chiến Lược Cornerstone Content

      Hướng Dẫn Cơ Bản Về Chiến Lược Cornerstone Content Là Gì

      Cornerstone content là gì? Cornerstone content, hay nội dung nền tảng, có thể được coi là những bài viết hoặc […]

      Đọc thêm
      Cách Tạo Web Thương Mại Điện Tử Tốt Nhất Để Phát Triển Nhanh Trên Trực Tuyến

      Cách Tạo Web Thương Mại Điện Tử Tốt Nhất Để Phát Triển Nhanh Trên Trực Tuyến

      Thương mại điện tử đang phát triển, cung cấp cho các công ty một nền tảng để thâm nhập thị […]

      Đọc thêm
      Cách Bắt Đầu Kinh Doanh TMĐT Tiết Kiệm 2024

      Cách Bắt Đầu Kinh Doanh TMĐT Tiết Kiệm 2024

      Tìm hiểu cách bắt đầu kinh doanh TMĐT tiết kiệm. Bài viết này sẽ hướng dẫn bạn từ lựa chọn thị trường ngách, thiết lập trang web miễn phí cho đến dropshipping và SEO.

      Đọc thêm