Chặn bot AI và trình thu thập dữ liệu crawler website của bạn

BOT thu thập dữ liệu về để đào tạo AI giờ rất đông và hung hãn nên trong bài viết này mình sẽ hướng dẫn 1 số cách để chặn bot AI và trình thu thập dữ liệu crawler website của bạn.

Dưới đây tôi liệt kê 3 giải pháp có thể giúp chặn trình thu thập dữ liệu và trình thu thập thông tin của AI:

  1. Chặn bot AI bằng robots.txt
  2. Chặn bot AI bằng Webserver
  3. Chặn bot AI bằng Cloudflare

Mỗi tùy chọn đều có ưu và nhược điểm riêng, tôi cũng sẽ nêu rõ bên dưới. Nếu bạn có bất kỳ câu hỏi nào có thể liên hệ với chúng tôi để được giải đáp thắc mắc.

Chặn bot AI và trình thu thập dữ liệu bằng robots.txt

Để chặn bằng robots.txt, bạn có thể thêm danh sách phía dưới vào file robots.txt là xong.

Bạn có thể xem qua danh sách bad bots và AI crawlers

File robots.txt phải được đặt trong thư mục gốc của website, nếu bạn chưa biết file robots.txt nằm ở đâu thì có thể đọc qua

# Anthropic AI
User-agent: anthropic-ai
# Apple AI
User-agent: Applebot-Extended
# GPT AI
User-agent: GPTBot
# Claude AI
User-agent: ClaudeBot
User-agent: Claude-Web
# Google AI
User-agent: Google-Extended
# Bot khac
User-agent: Bytespider
User-agent: CCBot
User-agent: cohere-ai
User-agent: Diffbot
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: FriendlyCrawler
User-agent: ImagesiftBot
User-agent: img2dataset
User-agent: Meta-ExternalAgent
User-agent: omgili
User-agent: omgilibot
User-agent: peer39_crawler
User-agent: Scrapy
User-agent: Timpibot
User-agent: VelenPublicWebCrawler
Disallow: /

Ưu điểm của việc sử dụng robots.txt để chặn trình thu thập dữ liệu AI

Đây là cách truyền thống là lâu đời nhất trong 3 phương pháp, về mặt kỹ thuật thì dễ dàng để thực hiện. Bất kỳ ai cũng có thể tạo file robots.txt mà không cần có bất kỳ kiến ​​thức kỹ thuật nào

Có thể truy cập được trên tất cả các máy chủ web. Không quan trọng bạn đang sử dụng nền tảng web nào, VPS, CMS … hay nền tảng nào khác.

Nhược điểm của việc sử dụng robots.txt để chặn trình thu thập dữ liệu AI

Robots.txt là một giao thức tự nguyện. Điều này có nghĩa là các công ty, tổ chức vận hành robot thu thập dữ liệu không có nghĩa vụ pháp lý phải tuân thủ các quy tắc robots.txt nên robots.txt không có ý nghĩa gì cả 😀

Giả dụ họ tuân thủ luật ngầm nhưng họ liên tục thay đổi tên robot thì bạn phải cập nhật file robots.txt liên tục để đáp ứng yêu cầu.

Phải làm gì nếu bot không tuân thủ robots.txt

Nếu các bot xấu không tôn trọng các quy tắc robots.txt của bạn, bạn có một số lựa chọn như sau.

Chuyển sang chặn phía máy chủ hoặc sử dụng giải pháp proxy như Cloudflare ở dưới đây.

Nếu bạn đang sử dụng , bạn có thể cài thêm plugin Blackhole for Bad Bots để bẫy các bot xấu không tôn trọng robots.txt

Chặn bot AI trên máy chủ (webserver)

Việc chặn bot, scraper và crawler từ phía máy chủ chắc chắn và hiệu quả hơn nhiều so với việc sử dụng file robots.txt.

3 máy chủ web được sử dụng nhiều nhất trên Internet hiện nay là Apache, NGINX và LiteSpeed.

Trong số này, máy chủ web Apache vẫn phổ biến nhất trên hầu hết các nền tảng lưu trữ, mặc dù hiệu suất của nó tệ hơn nhiều so với NGINX và LiteSpeed ​

Chặn bot AI trên máy chủ Apache hoặc LiteSpeed

Các máy chủ web Apache, Apache + NGINX và LiteSpeed ​​đều sử dụng file .htaccess trong thư mục gốc của trang web để cấu hình các tùy chọn như quyền truy cập máy chủ.

Để chặn các bot xấu trên máy chủ Apache bạn có thể thêm danh sách các tác nhân người dùng vào file .htaccess như sau:

# Block via User Agent
<IfModule mod_rewrite.c>
	RewriteEngine On
	RewriteCond %{HTTP_USER_AGENT} (EvilBot|ScumBot|FakeBot|FacebookBot|Meta-ExternalAgent) [NC]
	RewriteRule (.*) - [F,L]
</IfModule>

Chặn bot AI trên máy chủ web NGINX

NGINX không sử dụng file .htaccess mà sử dụng file nginx.conf (hoặc file Vhost). Để chặn bot xấu trên máy chủ NGINX của bạn, hãy thêm danh sách tác nhân người dùng vào nginx.conf của bạn, như sau:

if ($http_user_agent ~* (EvilBot|ScumBot|FakeBot|FacebookBot|Meta-ExternalAgent) ) { 
return 403; 
}

Ưu điểm của việc sử dụng chức năng chặn AI phía máy chủ

Khác với robots.txt, bot và trình thu thập dữ liệu không lách qua các quy tắc ở file robots.txt

Nhanh hơn và ít tốn tài nguyên hơn so với robots.txt

Bảo vệ quyền riêng tư, lưu lượng truy cập của bạn không phải thông qua bên thứ 3 nào.

Nhược điểm của việc sử dụng chức năng chặn AI phía máy chủ

Yêu cầu quyền truy cập vào cấu hình máy chủ web trên backend. Nếu bạn đang chạy VPS của riêng mình, thì đây không phải là vấn đề. Ngoài ra, một số môi trường lưu trữ chia sẻ cho phép sử dụng .htaccess để cấu hình các quy tắc truy cập.

Cần nhiều kiến ​​thức kỹ thuật hơn so với thiết lập robots.txt. Đối với việc chặn phía máy chủ, bạn cần sử dụng cú pháp chính xác, nếu không nó sẽ không hoạt động và thậm chí có thể khiến trang web của bạn không thể truy cập.

Block AI bots và scrapers với Cloudflare

Để chặn trình thu thập dữ liệu và trình thu thập thông tin AI trên Cloudflare, hãy làm theo các bước dưới đây:

Nếu bạn chưa biết Cloudflare là gì và cách đăng ký như thế nào bạn có thể xem qua nhé

1. Đăng nhập vào Cloudflare
2. Vào Websites > click vào domain bạn muốn áp dụng trong Cloudflare
3. Vào phần ‘Security’ –> ‘ Bot’ và kích hoạt ‘Block AI Scrapers and Crawlers’ lên là xong. (Bạn có thể xem hình phía dưới)

Bạn cũng nên bật Bot Fight Mode ở tuỳ chọn bên trên luôn để yêu cầu thách thức khớp với các mẫu bot đã biết trước khi chúng truy cập trang web của bạn.

Không thể biết chính xác những bot nào bị Cloudflare chặn vì họ không cung cấp danh sách đầy đủ và công khai nhưng hy vọng nó sẽ chặn các bot được hiển thị trong hình minh họa này từ blog của họ

Bạn có thể truy cập vào phần Event sẽ thấy danh sách các lần chặn nhé.

Ưu điểm của việc sử dụng chức năng chặn AI bằng Cloudflare

Dễ thiết lập hơn so với chặn phía máy chủ. Cloudflare cung cấp thiết lập một nút duy nhất để chặn trình thu thập thông tin AI

Bot khó vào được máy chủ của bạn vì chúng bị chặn ngay trên proxy Cloudflare, bạn sẽ tiết kiệm khá nhiều bằng thông hoặc tài nguyên CPU để xử lý các yêu cầu từ bot đấy.

Nhược điểm của việc sử dụng chức năng chặn AI bằng Cloudflare

– Yêu cầu bạn thêm tên miền vào Cloudflare và bật proxy, điều này có nghĩa là bạn cần truy cập vào tên miền của mình và thay đổi DNS thành DNS do Cloudflare cung cấp, bạn nên đọc qua bài viết hướng dẫn chi tiết nếu bạn đang gặp khó khăn.

– Nhiều nền tảng lưu trữ, ví dụ như Shopify, One.com, Wix, v.v. không cho phép bạn sử dụng Cloudflare.

– Mọi dữ liệu của bạn đều đi qua bên thứ 3 (Cloudflare). Nhiều công ty lớn trên thế giới đều sử dụng Cloudflare dể làm Proxy nên bạn yên tâm về vấn đề bảo mật, tất nhiên là nếu bạn không tin thì bạn không thể sử dụng tùy chọn này.

– Cloudflare là máy chủ proxy sẽ ẩn địa chỉ IP của máy chủ web của bạn, điều này ưu hay nhược tuỳ theo mỗi người

Lưu ý khi chặn một số bot AI

Việc chặn một số bot AI, chẳng hạn như PerplexityBot, YouBot hoặc OAI-SearchBot có thể làm giảm khả năng hiển thị trang web của bạn trên các công cụ tìm kiếm của các công ty đó.

Chặn Amazonbot hoặc Applebot có thể làm giảm cơ hội được đưa vào tìm kiếm bằng giọng nói như Alexa hoặc Siri. Microsoft Co-pilot sử dụng Bingbot làm tác nhân người dùng

Nếu bạn lo ngại về điều này, hãy chỉ chặn các trình thu thập dữ liệu AI đã biết. Đôi khi điều này có thể khó khăn vì không phải lúc nào cũng rõ ràng về cách các công ty khác nhau sử dụng bot của họ.

Dưới đây là danh sách những thứ mà hiện tại tôi tin là các bot thu thập thông tin thuần túy sẽ không gây ảnh hưởng đến việc SEO

anthropic-ai
Applebot-Extended
Bytespider
CCBot
ClaudeBot
Claude-Web
cohere-ai
Diffbot
FacebookBot
FriendlyCrawler
Google-Extended
GPTBot
ImagesiftBot
img2dataset
Meta-ExternalAgent
omgili
omgilibot
Scrapy
Timpibot
VelenPublicWebCrawler

Kết luận

Ở trên là 3 cách đơn giản nhất mà bạn có thể xem qua để chọn cho mình 1 cách để chặn bot AI và trình thu thập dữ liệu crawler website của bạn, bạn có thể kết hợp 3 phương pháp đều được nhé, chúng cũng không gây ra vấn đề gì về xung đột gì nên bạn không cần phải lo lắng.

Ở trên là các kiến thức phổ thông để chặn bot AI và trình thu thập dữ liệu crawler website của bạn, nếu bạn sử dụng VPS thì có thể tìm hiểu qua 1 số công cụ này để thêm config nâng cao.

  • Ichido AI And LLM Bot Blocker
  • Nginx Ultimate Bad Bot Blocker

Cảm ơn bạn đã đọc qua bài viết, hy vọng bài viết sẽ giúp ích được cho nhiều người.

5/5 - (14 votes)

donate Nếu bạn thấy bài viết có ích bạn có thể donate cho team hoặc chia sẻ bài viết này. Ngoài ra bạn có thể yêu cầu thêm bài viết tại đây
vutruso

Vũ Trụ Số chuyên cung cấp hosting cho WordPress, dịch vụ thiết kế website, quản trị website cho doanh nghiệp, dịch vụ quảng cáo Google, quảng cáo Facebook, các dịch vụ bảo mật website WordPress, tăng tốc website WordPress

Bài viết liên quan