Semalt: Cách chặn Darodar Robots.txt

Tệp Robots.txt là một tệp văn bản điển hình chứa các hướng dẫn về cách trình thu thập dữ liệu web hoặc bot nên thu thập dữ liệu trang web. Ứng dụng của họ là hiển nhiên trong các bot công cụ tìm kiếm phổ biến trong nhiều trang web được tối ưu hóa. Là một phần của Giao thức loại trừ robot (REP), tệp robot.txt tạo thành một khía cạnh thiết yếu của việc lập chỉ mục nội dung trang web cũng như cho phép máy chủ xác thực các yêu cầu của người dùng theo đó.

Julia Vashneva, Giám đốc thành công khách hàng cao cấp Semalt , giải thích rằng liên kết là một khía cạnh của Tối ưu hóa công cụ tìm kiếm (SEO), liên quan đến việc đạt được lưu lượng truy cập từ các tên miền khác trong phạm vi thích hợp của bạn. Đối với các liên kết "theo dõi" để chuyển nước trái cây liên kết, điều cần thiết là bao gồm tệp robot.txt trên không gian lưu trữ trang web của bạn để hoạt động như một người hướng dẫn về cách máy chủ tương tác với trang web của bạn. Từ kho lưu trữ này, các hướng dẫn được trình bày bằng cách cho phép hoặc không cho phép một số tác nhân người dùng cụ thể hành xử.

Định dạng cơ bản của tệp robot.txt

Tệp robot.txt chứa hai dòng thiết yếu:

Tác nhân người dùng: [tên tác nhân người dùng]

Không cho phép: [Chuỗi URL không được thu thập thông tin]

Một tệp robot.txt hoàn chỉnh phải chứa hai dòng này. Tuy nhiên, một số trong số chúng có thể chứa nhiều dòng tác nhân và chỉ thị của người dùng. Các lệnh này có thể chứa các khía cạnh như cho phép, không cho phép hoặc thu thập thông tin chậm trễ. Thường có một ngắt dòng phân tách từng bộ hướng dẫn. Mỗi lệnh cho phép hoặc không cho phép được phân tách bằng dấu ngắt dòng này, đặc biệt đối với tệp robots.txt có nhiều dòng.

Ví dụ

Ví dụ: tệp robot.txt có thể chứa các mã như:

Tác nhân người dùng: darodar

Không cho phép: / plugin

Không cho phép: / API

Không cho phép: / _comments

Trong trường hợp này, đây là tệp robot.txt chặn giới hạn trình thu thập dữ liệu web Darodar truy cập trang web của bạn. Trong cú pháp trên, mã chặn các khía cạnh của trang web, chẳng hạn như plugin, API và phần bình luận. Từ kiến thức này, có thể đạt được nhiều lợi ích từ việc thực thi tệp văn bản của robot một cách hiệu quả. Các tệp Robots.txt có thể thực hiện nhiều chức năng. Ví dụ, họ có thể sẵn sàng:

1. Cho phép tất cả các nội dung trình thu thập dữ liệu web vào một trang web. Ví dụ;

Đại lý người dùng: *

Không cho phép:

Trong trường hợp này, tất cả nội dung người dùng có thể được truy cập bởi bất kỳ trình thu thập dữ liệu web nào đang được yêu cầu để truy cập trang web.

2. Chặn một nội dung web cụ thể từ một thư mục cụ thể. Ví dụ;

Tác nhân người dùng: Googlebot

Không cho phép: / example-thư mục con /

Cú pháp này chứa tên tác nhân người dùng Googlebot thuộc về Google. Nó hạn chế bot truy cập vào bất kỳ trang web nào trong chuỗi www.ourexample.com/example-subfolder/.

3. Chặn một trình thu thập dữ liệu web cụ thể từ một trang web cụ thể. Ví dụ;

Tác nhân người dùng: Bingbot

Không cho phép: /example-subfolder/blocked-page.html

Bot bot tác nhân người dùng thuộc về trình thu thập dữ liệu web Bing. Loại tệp robots.txt này hạn chế trình thu thập dữ liệu web Bing truy cập vào một trang cụ thể bằng chuỗi www.ourexample.com/example-subfolder/blocked-page.

Thông tin quan trọng

  • Không phải mọi người dùng đều sử dụng tệp robts.txt của bạn. Một số người dùng có thể quyết định bỏ qua nó. Hầu hết các trình thu thập dữ liệu web như vậy bao gồm Trojan và phần mềm độc hại.
  • Để tệp Robots.txt hiển thị, tệp này phải có sẵn trong thư mục trang web cấp cao nhất.
  • Các ký tự "robot.txt" phân biệt chữ hoa chữ thường. Do đó, bạn không nên thay đổi chúng theo bất kỳ cách nào kể cả viết hoa một số khía cạnh.
  • "/Rtots.txt" là miền công cộng. Bất cứ ai cũng có thể tìm thấy thông tin này khi thêm nó vào nội dung của bất kỳ URL nào. Bạn không nên lập chỉ mục các chi tiết cần thiết hoặc các trang mà bạn muốn chúng ở chế độ riêng tư.