Trích xuất tên miền từ văn bản hoặc html

Trích xuất tên miền từ văn bản hoặc html giúp bạn lấy được danh sách tên miền nhanh chóng từ 1 đống hỗn tạp như text lẫn lộn hoặc trong 1 rừng code html chẳng hạn.

Trích xuất tên miền từ văn bản hoặc html mình thường làm trong các dự án gỡ mã độc bởi cần export tên miền từ file .sql ra danh sách domain và lọc xem những tên miền nào được hacker cố tình tạo backlink trong các bài viết và sau đó check bài viết để gỡ bỏ toàn bộ domain ẩn.

Hoặc ví dụ bạn có 1 file excel hỗ hợp và cần trích xuất ra domain thì cũng có thể sử dụng.

Tuỳ theo mục đích của bạn mà áp dụng cho phù hợp, để xuất các tên miền từ text hoặc html bạn có thể sử dụng 1 số công cụ dưới đây để có thể trích xuất tên miền chính xác và nhanh chóng.

Công cụ trích xuất tên miền từ văn bản hoặc html

Công cụ mình hay sử dụng nhất là goforpost, sử dụng 3 công cụ này không thể nào đơn giản hơn nữa. Nguyên tắc việc trích xuất tên miền từ văn bản hoặc html là bạn chỉ cần nhập dữ liệu đầu vào, click extract domains và lấy được kết quả đầu ra mà thôi.

https://www.goforpost.com/tools/domain-extractor/
https://www.getthit.com/domain-extractor-online
https://phrasefix.com/tools/extract-domain-names/

3 công cụ trên sẽ trích xuất ra domain gốc, còn công cụ dưới đây sẽ trích xuất ra url cụ thể, nó sẽ hữu ích trong 1 số trường hợp.

https://miniwebtool.com/url-extractor/

Ngoài ra có 1 công cụ mình cũng hay dùng để xuất ra ltd domain (gốc domain vd .com .net … từ text)

https://www.rebootonline.com/tools/url-to-domain/
https://textconverter.com/extract-url

Hy vọng công cụ trên sẽ giúp ích được cho nhiều người.

Xin cảm ơn.

Từ khóa
Nếu bạn thấy bài viết có ích hãy sao chép link và chia sẻ bài viết
daotiendung

Tiến Dũng Đào chuyên quản lý, vận hành các dịch vụ website. Anh có nhiều năm kinh nghiệm về VPS, Hosting, technical SEO, CMS. Đặc biệt yêu thích WordPress với hơn 5 năm phát triển theme và plugin. Sở thích của anh là đọc, viết blog, đi du lịch, tập võ và chia sẻ các kiến thức cho mọi người.

Bài viết liên quan