Bonjour,
J'aimerai l'avis des experts en scraping du forum. J'essaye de scraper des sites un peu sensibles et qui ban assez rapidement :-)
Je me suis alors posé la question des points techniques auxquels il fallait faire attention et notamment les protections couramment misent en place.
Voila le début de ma réflexion/recherche :
- IP => utilisation de proxy pour alterner les ip d’accès au site
- User agent ? Changement => en quoi l'user agent peut-il aider
- Cookie (suppression ?)
- Temps entre 2 requêtes (aléatoire)
Y a t'il d'autre point selon vous ?
Ce sujet peut être la base d'une réflexion commune pour tous ceux qui scrape et contourner les protections.
🔴 Hors ligne
Hello,
Pour te donner quelques pistes, tu peux regarder sur ce sujet du forum Zenno, c'est en russe (avec Google translate tu comprendras l'essentiel ) :
http://zennolab.com/discussion/threads/browser-fingerprint-anonimnaja-identifikacija-brauzerov.34813/
PS: Pour checker tes traces tu peux vérifier ici par exemple : https://browserleaks.com/
Dernière modification par karni (2017-08-13 06:44:20)
Formation Zennoposter High Level ▶ Skype : karnivore4949
Pas encore sur Zenno ? ▶ Rejoindre la communauté du meilleur tool d'automatisation
🔴 Hors ligne
Je viendrai rajouter aussi :
- vitesse/nombre de page chargée en un certain temps
- pays de provenance (attention au proxi)
N'hésitez pas si vous avez d'autres points.
🔴 Hors ligne
Un sleep entre deux scrap de la même ip.
Changement d'IP pour scrapper plus vite.
En général ça suffit. Après si ça te ban quand même et qu'il faut vraiment passer pour un utilisateur : exécution du js et cookie. Mais généralement pas besoin d'aller jusque là.
🔴 Hors ligne
Merci Mitsu,
Pour ce retour.
Je suis d'accord avec toi ça suffit pour 99% des cas.
Quand tu dis cookie, tu entends quoi par là ? Suppression entre 2 scrap ?
Idem pour exécution du js, quand tu scrap avec curl par exemple, tu charges la page, une partie du js est exécuté, non ?
🔴 Hors ligne
si le contenu est publique , pas besoin de cookie
utilise plein de proxys ca passera
attention des fois au type de requete que tu fais , s'il y a des erreurs dans l'url par exemple tu peux etre ban plus vite
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
En fait pour le scraping, 1 vps + des rotating proxies => t'as pas vraiment besoin de faire attention, tu peux bombarder H24 sans trop te prendre la tete et sans delai.
Un setup de base te couterait meme pas 20 euros par mois et ca te permet deja de bien bosser. De toute maniere si tu poses la question, je pense que c'est plus que suffisant pour t'y mettre et ca te permet deja de scrape des millions d'urls au quotidien.
Faut avoir en tête que sur 90 % des sites, tu peux bombarder en local avec ton ip sans problèmes.
Pour les cookies. Je pensais pas aux espaces membres mais plus à des sites qui essayent de détecter les bots.
Pour vraiment avoir l'air naturel comme un humain il faudrait :
Activer js
Activer cookie
Limiter nb requetes par ip
Temps de latence entre deux requêtes
Faire bouger la souris et non la "téléporter"
Utiliser ua humain
Charger des librairies js/css correspondant au navigateur de l'ua : donc en gros piloter un vrai navigateur à la zennoposter.
Brancher un service pour bypass les captcha.
Mais bon faire tout ça c'est lourd et tu crawlera lentement par rapport à un bon vieux curl des familles qui marchera très bien dans 90 % des cas. Et même dans les 10 % restant ta pas besoin d'aller aussi loin que tout ce sont je parle plus haut.
Perso je bombarde et si ça marche pas je rend le truc plus complexe petit à petit jusque ça passe. Vaux mieux ça plutôt que tout de suite sortir le tank peu maniable pour écraser des mouches.
🔴 Hors ligne
Il faut penser à scrapper sans itération, tu ne fais pas la page 1 puis la 2 puis la 3. Mais 1 => 150 => 22
CeKwa ?
🔴 Hors ligne
J'ai lancé un scrap sur clubic.com avec expired domains finder (scrapebox) sans proxy : j'ai un forbidden sur toutes les pages maintenant. C'est con car il y a des articles interessants sur clubic lol
Pour reprendre ce qui a été dis plus haut : nombre de threads / seconde faible et proxys au cas ou
Jérôme - Générer des revenus avec les NDD expirés (formation) | Blog perso jeromeweb.net
🔴 Hors ligne
De toute facon le scraping, c'est surtout base sur les besoins reels.
Selon la/les taches, le volume, la rapidite du scrape souhaitee et l'importance de ce que tu scrape pour ton workflow, le setup et les securites ne seront pas le meme (autant en terme de logiciel utilise que de "machines").
Et tout est question de ROI, c'est a dire que si le scrape est une tache importante pour toi, voir primoridiale, tu ne veux definitivement pas faire ca sur ton pc, en mode tortue et te galerer a surveiller que tout se passe bien. Si par contre c'est pas du tout prioritaire, la tu peux te permettre de faire ca tranquillou avec 1 thread et des delais.