
Chặn bot AI và trình thu thập dữ liệu crawler website của bạn
Sơ đồ trang
BOT thu thập dữ liệu về để đào tạo AI giờ rất đông và hung hãn nên trong bài viết này mình sẽ hướng dẫn 1 số cách để chặn bot AI và trình thu thập dữ liệu crawler website của bạn.
Dưới đây tôi liệt kê 3 giải pháp có thể giúp chặn trình thu thập dữ liệu và trình thu thập thông tin của AI:
- Chặn bot AI bằng robots.txt
- Chặn bot AI bằng Webserver
- Chặn bot AI bằng Cloudflare
Mỗi tùy chọn đều có ưu và nhược điểm riêng, tôi cũng sẽ nêu rõ bên dưới. Nếu bạn có bất kỳ câu hỏi nào có thể liên hệ với chúng tôi để được giải đáp thắc mắc.
Chặn bot AI và trình thu thập dữ liệu bằng robots.txt
Để chặn bot xấu bằng robots.txt, bạn có thể thêm danh sách phía dưới vào file robots.txt là xong.
Bạn có thể xem qua danh sách bad bots và AI crawlers tại đây
File robots.txt phải được đặt trong thư mục gốc của website, nếu bạn chưa biết file robots.txt nằm ở đâu thì có thể đọc qua bài viết này
# Anthropic AI User-agent: anthropic-ai # Apple AI User-agent: Applebot-Extended # GPT AI User-agent: GPTBot # Claude AI User-agent: ClaudeBot User-agent: Claude-Web # Google AI User-agent: Google-Extended # Bot khac User-agent: Bytespider User-agent: CCBot User-agent: cohere-ai User-agent: Diffbot User-agent: DataForSeoBot User-agent: FacebookBot User-agent: FriendlyCrawler User-agent: ImagesiftBot User-agent: img2dataset User-agent: Meta-ExternalAgent User-agent: omgili User-agent: omgilibot User-agent: peer39_crawler User-agent: Scrapy User-agent: Timpibot User-agent: VelenPublicWebCrawler Disallow: /
Ưu điểm của việc sử dụng robots.txt để chặn trình thu thập dữ liệu AI
Đây là cách truyền thống là lâu đời nhất trong 3 phương pháp, về mặt kỹ thuật thì dễ dàng để thực hiện. Bất kỳ ai cũng có thể tạo file robots.txt mà không cần có bất kỳ kiến thức kỹ thuật nào
Bài viết liên quan
Có thể truy cập được trên tất cả các máy chủ web. Không quan trọng bạn đang sử dụng nền tảng web nào, VPS, CMS … hay nền tảng nào khác.
Nhược điểm của việc sử dụng robots.txt để chặn trình thu thập dữ liệu AI
Robots.txt là một giao thức tự nguyện. Điều này có nghĩa là các công ty, tổ chức vận hành robot thu thập dữ liệu không có nghĩa vụ pháp lý phải tuân thủ các quy tắc robots.txt nên robots.txt không có ý nghĩa gì cả 😀
Giả dụ họ tuân thủ luật ngầm nhưng họ liên tục thay đổi tên robot thì bạn phải cập nhật file robots.txt liên tục để đáp ứng yêu cầu.
Phải làm gì nếu bot không tuân thủ robots.txt
Nếu các bot xấu không tôn trọng các quy tắc robots.txt của bạn, bạn có một số lựa chọn như sau.
Chuyển sang chặn phía máy chủ hoặc sử dụng giải pháp proxy như Cloudflare ở dưới đây.
Nếu bạn đang sử dụng mã nguồn WordPress, bạn có thể cài thêm plugin Blackhole for Bad Bots để bẫy các bot xấu không tôn trọng robots.txt
Chặn bot AI trên máy chủ (webserver)
Việc chặn bot, scraper và crawler từ phía máy chủ chắc chắn và hiệu quả hơn nhiều so với việc sử dụng file robots.txt.
3 máy chủ web được sử dụng nhiều nhất trên Internet hiện nay là Apache, NGINX và LiteSpeed.
Trong số này, máy chủ web Apache vẫn phổ biến nhất trên hầu hết các nền tảng lưu trữ, mặc dù hiệu suất của nó tệ hơn nhiều so với NGINX và LiteSpeed
Chặn bot AI trên máy chủ Apache hoặc LiteSpeed
Các máy chủ web Apache, Apache + NGINX và LiteSpeed đều sử dụng file .htaccess trong thư mục gốc của trang web để cấu hình các tùy chọn như quyền truy cập máy chủ.
Để chặn các bot xấu trên máy chủ Apache bạn có thể thêm danh sách các tác nhân người dùng vào file .htaccess như sau:
# Block via User Agent <IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (EvilBot|ScumBot|FakeBot|FacebookBot|Meta-ExternalAgent) [NC] RewriteRule (.*) - [F,L] </IfModule>
Chặn bot AI trên máy chủ web NGINX
NGINX không sử dụng file .htaccess mà sử dụng file nginx.conf (hoặc file Vhost). Để chặn bot xấu trên máy chủ NGINX của bạn, hãy thêm danh sách tác nhân người dùng vào nginx.conf của bạn, như sau:
if ($http_user_agent ~* (EvilBot|ScumBot|FakeBot|FacebookBot|Meta-ExternalAgent) ) { return 403; }
Ưu điểm của việc sử dụng chức năng chặn AI phía máy chủ
Khác với robots.txt, bot và trình thu thập dữ liệu không lách qua các quy tắc ở file robots.txt
Nhanh hơn và ít tốn tài nguyên hơn so với robots.txt
Bảo vệ quyền riêng tư, lưu lượng truy cập của bạn không phải thông qua bên thứ 3 nào.
Nhược điểm của việc sử dụng chức năng chặn AI phía máy chủ
Yêu cầu quyền truy cập vào cấu hình máy chủ web trên backend. Nếu bạn đang chạy VPS của riêng mình, thì đây không phải là vấn đề. Ngoài ra, một số môi trường lưu trữ chia sẻ cho phép sử dụng .htaccess để cấu hình các quy tắc truy cập.
Cần nhiều kiến thức kỹ thuật hơn so với thiết lập robots.txt. Đối với việc chặn phía máy chủ, bạn cần sử dụng cú pháp chính xác, nếu không nó sẽ không hoạt động và thậm chí có thể khiến trang web của bạn không thể truy cập.
Block AI bots và scrapers với Cloudflare
Để chặn trình thu thập dữ liệu và trình thu thập thông tin AI trên Cloudflare, hãy làm theo các bước dưới đây:
Nếu bạn chưa biết Cloudflare là gì và cách đăng ký như thế nào bạn có thể xem qua bài viết này nhé
1. Đăng nhập vào Cloudflare
2. Vào Websites > click vào domain bạn muốn áp dụng trong Cloudflare
3. Vào phần ‘Security’ –> ‘ Bot’ và kích hoạt ‘Block AI Scrapers and Crawlers’ lên là xong. (Bạn có thể xem hình phía dưới)
Bạn cũng nên bật Bot Fight Mode ở tuỳ chọn bên trên luôn để yêu cầu thách thức khớp với các mẫu bot đã biết trước khi chúng truy cập trang web của bạn.
Không thể biết chính xác những bot nào bị Cloudflare chặn vì họ không cung cấp danh sách đầy đủ và công khai nhưng hy vọng nó sẽ chặn các bot được hiển thị trong hình minh họa này từ blog của họ
Bạn có thể truy cập vào phần Event sẽ thấy danh sách các lần chặn nhé.
Ưu điểm của việc sử dụng chức năng chặn AI bằng Cloudflare
Dễ thiết lập hơn so với chặn phía máy chủ. Cloudflare cung cấp thiết lập một nút duy nhất để chặn trình thu thập thông tin AI
Bot khó vào được máy chủ của bạn vì chúng bị chặn ngay trên proxy Cloudflare, bạn sẽ tiết kiệm khá nhiều bằng thông hoặc tài nguyên CPU để xử lý các yêu cầu từ bot đấy.
Nhược điểm của việc sử dụng chức năng chặn AI bằng Cloudflare
– Yêu cầu bạn thêm tên miền vào Cloudflare và bật proxy, điều này có nghĩa là bạn cần truy cập vào tên miền của mình và thay đổi DNS thành DNS do Cloudflare cung cấp, bạn nên đọc qua bài viết hướng dẫn chi tiết tại đây nếu bạn đang gặp khó khăn.
– Nhiều nền tảng lưu trữ, ví dụ như Shopify, One.com, Wix, v.v. không cho phép bạn sử dụng Cloudflare.
– Mọi dữ liệu của bạn đều đi qua bên thứ 3 (Cloudflare). Nhiều công ty lớn trên thế giới đều sử dụng Cloudflare dể làm Proxy nên bạn yên tâm về vấn đề bảo mật, tất nhiên là nếu bạn không tin thì bạn không thể sử dụng tùy chọn này.
– Cloudflare là máy chủ proxy sẽ ẩn địa chỉ IP của máy chủ web của bạn, điều này ưu hay nhược tuỳ theo mỗi người
Lưu ý khi chặn một số bot AI
Việc chặn một số bot AI, chẳng hạn như PerplexityBot, YouBot hoặc OAI-SearchBot có thể làm giảm khả năng hiển thị trang web của bạn trên các công cụ tìm kiếm của các công ty đó.
Chặn Amazonbot hoặc Applebot có thể làm giảm cơ hội được đưa vào tìm kiếm bằng giọng nói như Alexa hoặc Siri. Microsoft Co-pilot sử dụng Bingbot làm tác nhân người dùng
Nếu bạn lo ngại về điều này, hãy chỉ chặn các trình thu thập dữ liệu AI đã biết. Đôi khi điều này có thể khó khăn vì không phải lúc nào cũng rõ ràng về cách các công ty khác nhau sử dụng bot của họ.
Dưới đây là danh sách những thứ mà hiện tại tôi tin là các bot thu thập thông tin thuần túy sẽ không gây ảnh hưởng đến việc SEO
anthropic-ai
Applebot-Extended
Bytespider
CCBot
ClaudeBot
Claude-Web
cohere-ai
Diffbot
FacebookBot
FriendlyCrawler
Google-Extended
GPTBot
ImagesiftBot
img2dataset
Meta-ExternalAgent
omgili
omgilibot
Scrapy
Timpibot
VelenPublicWebCrawler
Kết luận
Ở trên là 3 cách đơn giản nhất mà bạn có thể xem qua để chọn cho mình 1 cách để chặn bot AI và trình thu thập dữ liệu crawler website của bạn, bạn có thể kết hợp 3 phương pháp đều được nhé, chúng cũng không gây ra vấn đề gì về xung đột gì nên bạn không cần phải lo lắng.
Ở trên là các kiến thức phổ thông để chặn bot AI và trình thu thập dữ liệu crawler website của bạn, nếu bạn sử dụng VPS thì có thể tìm hiểu qua 1 số công cụ này để thêm config nâng cao.
- Ichido AI And LLM Bot Blocker
- Nginx Ultimate Bad Bot Blocker
Cảm ơn bạn đã đọc qua bài viết, hy vọng bài viết sẽ giúp ích được cho nhiều người.