
Danh sách bad bots và AI crawlers
Sơ đồ trang
Hôm trước tôi có viết 1 hướng dẫn chặn bot AI và trình thu thập dữ liệu crawler website của bạn và hôm nay là liệt kê rõ ràng hơn các bot xấu hoặc danh sách các AI crawlers để bạn có cái nhìn tổng quan hơn.
Tôi thường chặn hầu hết các bot
Tất nhiên không thể chặn các bot tốt như Google được 😀 mà đa số sẽ chặn các bot có hại và bot không cần thiết khác vì các lý do sau:
Đầu tiên, Khi Bot crawlers qua web của bạn sẽ sử dụng băng thông và CPU rất cao. Thứ hai, chúng thu thập dữ liệu từ website của bạn để bán lại cho các đối thủ cạnh tranh đang muốn nghiên cứu các thông tin từ website của bạn.
Nếu bạn đang chạy VPS riêng, bạn biết rằng tài nguyên CPU và băng thông mạng không hề rẻ. Và nếu bạn sử dụng hosting chia sẻ, bạn sẽ muốn giữ lại các tài nguyên được phân bổ để vận hành dịch vụ của mình tốt hơn thì nên chặn các bot xấu.
Bạn có muốn các bài viết, hình ảnh và video mà bạn đã tốn công tạo ra bị các công ty AI thu thập và đạo văn không? 😀 Nội dung thu thập này được sử dụng để huấn luyện các mô hình ngôn ngữ lớn (LLMs) để người khác có thể dễ dàng tạo nội dung giống như của bạn.
Thêm vào đó, các công ty SEO như Ahrefs và SEMrush quét các trang web của bạn và bán thông tin đó cho các doanh nghiệp khác đang muốn vượt mặt bạn trên các công cụ tìm kiếm. Tại sao bạn lại muốn giúp họ đánh bại chính mình?
Một số bot chỉ đơn giản là có mục đích xấu, chúng quét máy chủ và website của bạn để tìm lỗ hổng, hoặc thu thập thông tin về hạ tầng và phần mềm của bạn để sử dụng cho các mục đích không tốt.
Bài viết liên quan
Không phải tất cả các bot đều tôn trọng các quy tắc robots.txt
Bạn có thể hỏi: Tại sao không thêm tác nhân người dùng vào robots.txt? Đó là vì “quy tắc” bạn cung cấp trong đó chỉ là khuyến nghị và không ai có nghĩa vụ phải tuân theo chúng. Nhiều bot xấu khét tiếng là không tôn trọng robots.txt và để đảm bảo trang web và nội dung của bạn được bảo vệ, tôi khuyên bạn nên chặn hoàn toàn quyền truy cập của chúng.
Làm thế nào để chặn bot
Có một số cách để chặn bot
- Tạo quy tắc tường lửa trong Cloudflare hoặc WAF bạn đang dùng
- Chặn trong cấu hình máy chủ web (Nginx, Litespeed hoặc Apache)
- Chặn trong Robots.txt
Trong các phương pháp trên, sử dụng robots.txt là phương pháp được sử dụng thường xuyên nhất. Tuy nhiên, đây không phải là phương pháp tôi ưa thích vì tôi không tin tưởng tất cả các bot đều tuân theo các quy tắc được đặt trong đó. Ngoài ra, tại sao lại lãng phí tài nguyên CPU và băng thông của bạn vào các bot nếu bạn có thể chặn chúng trước khi chúng cào được data từ website của bạn?
Vì những lý do này, tôi khuyên bạn nên chặn bot trong Cloudflare Web Application Firewall. Nếu không được, hãy chặn chúng trong cấu hình máy chủ web của bạn. Nếu bạn không có quyền truy cập vào bất kỳ mục nào trong số này, bạn không còn lựa chọn nào khác hãy chặn bằng robots.txt.
Chi tiết về cách chặn bạn có thể đọc qua bài viết này nhé.
Danh sách các bot xấu cần chặn
anthropic-ai
Anthropic-AI bot là một chatbot hoặc hệ thống trí tuệ nhân tạo được phát triển bởi công ty Anthropic, được thiết kế để giao tiếp và hỗ trợ người dùng thông qua các cuộc trò chuyện tự nhiên. Tương tự như các chatbot khác dựa trên mô hình ngôn ngữ lớn (Large Language Models – LLMs), như GPT của OpenAI, bot của Anthropic-AI sử dụng những mô hình học sâu tiên tiến để hiểu và phản hồi theo cách tự nhiên và ngữ cảnh.
Applebot-Extends
Applebot-Extends là một tác nhân người dùng được Apple tạo ra để thu thập dữ liệu trên web. Nó cho phép các trang web từ chối đóng góp nội dung của họ cho hoạt động đào tạo AI trong khi vẫn cho phép lập chỉ mục cho các tính năng như tìm kiếm Siri và Spotlight. Apple sử dụng trình thu thập thông tin này để thu thập dữ liệu cho các dịch vụ AI của mình nhưng chủ sở hữu trang web có thể kiểm soát xem nội dung của họ có được đưa vào quá trình đào tạo các mô hình ngôn ngữ của Apple hay không bằng cách chỉ định các lệnh trong tệp robots.txt của họ. Tùy chọn này mang lại sự linh hoạt cho những người muốn duy trì được lập chỉ mục cho mục đích tìm kiếm mà không cần tham gia đào tạo mô hình AI
Bytespider
Bytespider là một trình thu thập dữ liệu web do ByteDance, chủ sở hữu TikTok của Trung Quốc, điều hành. Dữ liệu được sử dụng để đào tạo LLM (Mô hình ngôn ngữ lớn) của công ty, bao gồm cả những mô hình cung cấp tài nguyên cho Doubao là đối thủ của ChatGPT. Đây là một bot cực kỳ hung hăng, lãng phí rất nhiều tài nguyên máy chủ.
CCBot
CCBot là trình thu thập dữ liệu web được Common Crawl sử dụng. Có trụ sở tại Châu Âu, Common Crawl đã dành nhiều năm để thu thập lượng dữ liệu khổng lồ từ web, bao gồm nội dung có bản quyền và sắp xếp các tập dữ liệu để sử dụng làm dữ liệu đào tạo miễn phí cho LLM.
ChatGPT-User
ChatGPT-User không phải là trình thu thập dữ liệu web, mà là bot mà các plugin ChatGPT sử dụng để truy cập trang web của bạn. Vì vậy, mặc dù không tự động, nhưng nó vẫn đánh cắp dữ liệu từ các trang web của bạn bất cứ khi nào người dùng ChatGPT tham chiếu đến.
ClaudeBot
ClaudeBot là một trình thu thập dữ liệu do Anthropic vận hành. “Anthropic sử dụng nhiều nguồn dữ liệu khác nhau để phát triển mô hình, chẳng hạn như dữ liệu công khai có sẵn trên internet được thu thập thông qua trình thu thập dữ liệu web.”
Claude-Web
Claude-Web là một tác nhân người dùng khác do Anthropic điều hành. Không rõ nó được sử dụng để làm gì.
cohere-ai
cohere-ai là một tác nhân người dùng khác do Anthropic vận hành. Cũng không rõ tác nhân này được sử dụng để làm gì, có lẽ để lấy các trang web khi người dùng yêu cầu trong cuộc trò chuyện.
Diffbot
Diffbot “tự động trích xuất dữ liệu web từ bất kỳ trang web nào bằng AI, thị giác máy tính và máy học”. Diffbot có thể “biến bất kỳ trang web nào thành cơ sở dữ liệu có cấu trúc của tất cả các sản phẩm, bài viết và thảo luận của họ trong vài phút”.
FacebookBot
FacebookBot là một công cụ thu thập dữ liệu khác dùng để thu thập dữ liệu từ Internet nhằm đào tạo các LLM (mô hình ngôn ngữ lớn) của Meta. FacebookBot gây ngốn tài nguyên nghiêm trọng cho các máy chủ.
FriendlyCrawler
FriendlyCrawler là một trình thu thập dữ liệu web mới. Không có nhiều thông tin về nó, nhưng nó chạy trên hệ thống tự động của Amazon (AWS) và dường như thu thập dữ liệu cho thí nghiệm gì đó. Có tên FriendlyCrawler nhưng nó không tôn trọng robots.txt
Google-Extended
Google-Extended là tác nhân người dùng được chỉ định cho các lần thu thập dữ liệu cho LLM của Google, chẳng hạn như Gemini. Việc chặn tác nhân người dùng này sẽ không ảnh hưởng đến việc lập chỉ mục các trang web của bạn.
GPTBot
GPTBot là trình thu thập dữ liệu web của OpenAI, thu thập dữ liệu được sử dụng để đào tạo mô hình ngôn ngữ lớn (LLM) của họ. Trừ khi bạn thích nội dung của mình bị ăn thịt, hãy chặn bot này.
Image2dataset
Image2dataset là một công cụ thu thập dữ liệu mà mọi người có thể sử dụng để thu thập URL hình ảnh. Sau đó, URL được đưa vào bộ dữ liệu LLM.
ImagesiftBot
ImageSiftBot là “một trình thu thập dữ liệu web thu thập hình ảnh công khai trên internet”. Nó thuộc sở hữu của Hive, một công ty cung cấp công cụ tìm kiếm hình ảnh ngược. Tuy nhiên, Hive cũng cung cấp AI tạo hình ảnh, nghĩa là hình ảnh của bạn sẽ được sử dụng làm dữ liệu đào tạo cho công cụ AI của họ.
Meta-ExternalAgent
Meta-ExternalAgent “thu thập dữ liệu trên web để tìm các trường hợp sử dụng như đào tạo mô hình AI hoặc cải thiện sản phẩm bằng cách lập chỉ mục nội dung trực tiếp”. Thuộc về công ty Meta (Facebook).
omgili / omgilibot
omgilibot là một trình thu thập dữ liệu web từ webz.io. Dữ liệu từ quá trình thu thập dữ liệu được sử dụng để cung cấp data cho chỉ mục của họ, giúp doanh nghiệp có thể truy cập được. Công ty bán các tập dữ liệu của họ cho mục đích đào tạo LLM
PerplexityBot
PerplexityBot là một trình thu thập dữ liệu web của Perplexity AI
Timpibot
Timpibot là một shitbot khác đang thu thập dữ liệu của bạn và bán nó. Con bot này thuộc về Timpi, một công ty tuyên bố chỉ số của họ chỉ đứng sau Google. Họ bán các tập dữ liệu cho LLM.
Trình thu thập thông tin SEO
AhrefsBot
AhrefsBot là một trình thu thập thông tin thuộc về Ahrefs, một công ty thu thập dữ liệu liên quan đến SEO từ các trang web của bạn và bán cho các đối thủ cạnh tranh của bạn để họ có thể xếp hạng cao hơn bạn trên các công cụ tìm kiếm. Tất nhiên, điều này rất tệ cho doanh nghiệp của bạn và tôi khuyên bạn nên chặn nó. Trừ khi bạn đang sử dụng dịch vụ của họ để theo dõi thứ hạng SEO và backlink của riêng bạn.
MJ12Bot
MJ12Bot là trình thu thập dữ liệu SEO cho công ty Majestic. Hãy chặn nó nếu bạn không sử dụng dịch vụ của họ.
DotBot
DotBot là trình thu thập backlinks của Moz. Nếu bạn không sử dụng các dịch vụ này, thì không có lý do gì để bạn tự ý cung cấp thông tin này cho đối thủ cạnh tranh của mình.
SemrushBot
SemrushBot là một trình thu thập thông tin SEO do Semrush điều hành, một đối thủ cạnh tranh của Ahrefs cung cấp cùng loại dịch vụ.
Barkrowler
Barkrowler là tên của một trình thu thập thông tin SEO từ Babbar.tech, cung cấp và cập nhật biểu đồ biểu diễn World Wide Web. Cơ sở dữ liệu và tất cả các số liệu mà họ thu thập được được sử dụng để cung cấp một bộ công cụ tiếp thị và tham chiếu trực tuyến cho các công ty SEO.
BLEXBot
BLEXBot hỗ trợ các nhà tiếp thị internet có được thông tin về cấu trúc liên kết của các trang web và liên kết của web, để tránh mọi vấn đề kỹ thuật và pháp lý có thể xảy ra và cải thiện trải nghiệm trực tuyến tổng thể. Nó được điều hành bởi một công ty Israel có tên là WebMeUp, cung cấp các dịch vụ SEO như trình kiểm tra backlink.
DataForSeoBot
DataForSeoBot là một bot kiểm tra backlink từ trang web của bạn và bán cho khách hàng. “DataForSEO Bot liên tục thu thập thông tin trên web để thêm các liên kết mới vào cơ sở dữ liệu liên kết ngược của chúng tôi và kiểm tra các liên kết đã có”.
Security Scanners
CensysInspect
CensysInspect là một trình quét bảo mật do công ty Censys vận hành. Nó quét toàn bộ phạm vi IP công cộng để xác định các dịch vụ đang chạy trên máy chủ của bạn. Thông tin như thế này được sử dụng để xác định các lỗ hổng trên mạng của bạn và có thể hữu ích nếu bạn đang kiểm tra các biện pháp phòng thủ của riêng mình.
Expanse
Expanse là một trình thu thập dữ liệu web từ Palo Alto Networks. Nó thu thập dữ liệu Internet để tạo cơ sở dữ liệu về “URL độc hại” mà họ cung cấp dưới dạng dịch vụ đăng ký cho khách hàng của mình. Đây là một trình quét rất mạnh mẽ sử dụng nhiều tài nguyên mạng.
Internet-measurement
Internet-measurement là một trình thu thập thông tin do Driftnet vận hành. “Nó được sử dụng để khám phá và đo lường các dịch vụ mà chủ sở hữu và nhà điều hành mạng đã công khai.” Tôi không rõ dữ liệu của bạn được sử dụng như thế nào, nhưng chắc chắn là không có lợi cho bạn.
Kết luận
Ở trên là một số thông tin về bad bot, Trình thu thập thông tin SEO và Security Scanners … hy vọng bài viết sẽ cho bạn thêm thông tin để đưa ra lựa chọn phù hợp.
Xin cảm ơn.