Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

#1 2013-09-16 17:35:49

Mention cyex
Scout
Inscription : 2013-07-12
Messages : 144

check massif sur domaines > disponibles ou non

Bonjour,

Je cherche à savoir si un domaine est disponible ou pas. Je l'ai mis ici car peu importe le langage de programmation.

C'est normalement pas très compliqué, et d'habitude la commande whois appelé depuis une simple commande shell conviens.
Sauf que la en l'occurrence je me retrouve à scraper et recupéer des milliers de domaines à tester.

Ce que souhaite faire c'est aller le plus vite possible. Je pose pas seulement la question, je vous met aussi des tests à disposition si vous avez des projets plus petit ca vous sera utile sad

Si je lance un scrap (4 threads pour tous les tests) sur une portion de test et recupère toutes mes urls et sans checker les domaines je met 7 secondes pour 2939 domaines trouvées.

Avec la commande whois j'obtiens des timeouts et c'est long.

Alors je me dis que je vais au moins faire un premier tri avec les domaines non accessibles et après un second passage avec le whois. Voici les résultats (de commandes php) :
Avec get_headers : 146 min (ouch !) et 397 domaines trouvés comme non accessible
Avec checkdnsrr : 11 min et 1257 domaines dispo
Avec fsockopen : 46 min et 1252 urls
(J'ai déjà recup les domaines expirés interessants hein ! tongue)

Bref la solution checkdnsrr semble la meilleure, mais c'est beaucoup trop long si j'en ai plusieurs milliers ! et de 7 secondes à 11 min ca fait un sacré gap !
J'ai pas testé avec curl, mais ca devrait être des valeurs certainement plus grandes.

Je ne voulait tout faire en "interne" mais on dirait que je vais être obligé de passer par un service externe si je veux aller vite. Les bulk search à scraper sont assez long et les api (comme le propose ovh) limité en nombre.

Quelqu'un a une idée pour faire ca en interne sans sacrifier la vitesse du bousin ? Une solution externe ? Une api rapide (internet.bs) ? Je dois m'inscrire en tant que registar ? big_smile

Merci smile

Hors ligne

#2 2013-09-16 17:40:12

Mention Jaffaar
Guardian
Lieu : Marseille
Inscription : 2012-06-01
Messages : 5 291

Développement PHP
Développement JS
Networking SEO
Social Engineering
Site Web

Re : check massif sur domaines > disponibles ou non

On a bossé sur ca pour le crawling de ndd, faudrait qu'on en parle de vive voix si tu veux bien smile


⌕ Tu veux Ranker ?
⏩ Actives le mode automatique : SEO Quartz             
⏩ Profite d'un consultant SEO (sur Marseille ou sur Skype => jaffaarbh )
⏩ Tu veux des techniques concrètes ? SEO Basics Skills - SEO Ranking Skills

Hors ligne

Pied de page des forums