Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

#1 2017-08-12 14:08:22

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Scraping en masse à quoi faire attention ?

Bonjour,

J'aimerai l'avis des experts en scraping du forum. J'essaye de scraper des sites un peu sensibles et qui ban assez rapidement :-)

Je me suis alors posé la question des points techniques auxquels il fallait faire attention et notamment les protections couramment misent en place.

Voila le début de ma réflexion/recherche :
- IP => utilisation de proxy pour alterner les ip d’accès au site
- User agent ? Changement => en quoi l'user agent peut-il aider
- Cookie (suppression ?)
- Temps entre 2 requêtes (aléatoire)

Y a t'il d'autre point selon vous ?

Ce sujet peut être la base d'une réflexion commune pour tous ceux qui scrape et contourner les protections.

Hors ligne

#2 2017-08-13 06:18:11

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Scraping en masse à quoi faire attention ?

Pas d'autre piste les amis ? sad:(

Hors ligne

#3 2017-08-13 06:43:56

Mention karni
Scout
Lieu : Angers
Inscription : 2013-04-07
Messages : 242

Marketing
Automatisation Web
Scraping
Netlinking Auto

Re : Scraping en masse à quoi faire attention ?

Hello,

Pour te donner quelques pistes, tu peux regarder sur ce sujet du forum Zenno,  c'est en russe  (avec  Google translate tu comprendras l'essentiel ) :

http://zennolab.com/discussion/threads/browser-fingerprint-anonimnaja-identifikacija-brauzerov.34813/

PS: Pour checker tes traces tu peux vérifier ici  par exemple :  https://browserleaks.com/

Dernière modification par karni (2017-08-13 06:44:20)


Formation Zennoposter High Level  ▶ Skype : karnivore4949

Pas encore sur Zenno ?    ▶ Rejoindre la communauté du meilleur tool d'automatisation  smile

Hors ligne

#4 2017-08-13 06:51:01

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Scraping en masse à quoi faire attention ?

Big Thanks, excellentes sources.

Merci karni.

Hors ligne

#5 2017-08-14 08:54:48

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Scraping en masse à quoi faire attention ?

Je viendrai rajouter aussi :
- vitesse/nombre de page chargée en un certain temps
- pays de provenance (attention au proxi)

N'hésitez pas si vous avez d'autres points.

Hors ligne

#6 2017-08-14 17:32:44

Mention Mitsu
Soldier
Inscription : 2014-11-17
Messages : 1 999

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Scraping en masse à quoi faire attention ?

Un sleep entre deux scrap de la même ip.
Changement d'IP pour scrapper plus vite.

En général ça suffit. Après si ça te ban quand même et qu'il faut vraiment passer pour un utilisateur  :  exécution du js et cookie. Mais généralement pas besoin d'aller jusque là.

Hors ligne

#7 2017-08-15 09:13:19

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Scraping en masse à quoi faire attention ?

Merci Mitsu,

Pour ce retour.

Je suis d'accord avec toi ça suffit pour 99% des cas.

Quand tu dis cookie, tu entends quoi par là ? Suppression entre 2 scrap ?
Idem pour exécution du js, quand tu scrap avec curl par exemple, tu charges la page, une partie du js est exécuté, non ?

Hors ligne

#8 2017-08-16 20:10:39

Mention Seoxis
Soldier
Lieu : Calais
Inscription : 2014-04-29
Messages : 591

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Scraping en masse à quoi faire attention ?

si le contenu est publique , pas besoin de cookie

utilise plein de proxys ca passera smile

attention des fois au type de requete que tu fais , s'il y a des erreurs dans l'url par exemple tu peux etre ban plus vite


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

Hors ligne

#9 2017-08-30 10:01:54

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Scraping en masse à quoi faire attention ?

Salut Seoxis,

C'est noté.

Merci pour ces petits points.

Hors ligne

#10 2017-08-30 13:58:03

Mention Paf_le_Chien
Vagabond

Re : Scraping en masse à quoi faire attention ?

En fait pour le scraping, 1 vps + des rotating proxies => t'as pas vraiment besoin de faire attention, tu peux bombarder H24 sans trop te prendre la tete et sans delai.

Un setup de base te couterait meme pas 20 euros par mois et ca te permet deja de bien bosser. De toute maniere si tu poses la question, je pense que c'est plus que suffisant pour t'y mettre et ca te permet deja de scrape des millions d'urls au quotidien.

#11 2017-08-30 14:30:16

Mention Mitsu
Soldier
Inscription : 2014-11-17
Messages : 1 999

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Scraping en masse à quoi faire attention ?

Faut avoir en tête que sur 90 %  des sites, tu peux bombarder en local avec ton ip sans problèmes.

Pour les cookies. Je pensais pas aux espaces membres mais plus à des sites qui essayent de détecter les bots.

Pour vraiment avoir l'air naturel comme un humain il faudrait  :

Activer js
Activer cookie
Limiter nb requetes par ip
Temps de latence entre deux requêtes
Faire bouger la souris et non la "téléporter"
Utiliser ua humain
Charger des librairies js/css correspondant au navigateur de l'ua  :  donc en gros piloter un vrai navigateur à la zennoposter.
Brancher un service pour bypass les captcha.

Mais bon faire tout ça c'est lourd et tu crawlera lentement par rapport à un bon vieux curl des familles qui marchera très bien dans 90 %  des cas. Et même dans les 10 %  restant ta pas besoin d'aller aussi loin que tout ce sont je parle plus haut.

Perso je bombarde et si ça marche pas je rend le truc plus complexe petit à petit jusque ça passe. Vaux mieux ça plutôt que tout de suite sortir le tank peu maniable pour écraser des mouches.

Hors ligne

#12 2017-08-30 14:49:00

Mention Soul
Soldier
Lieu : Annecy
Inscription : 2013-01-02
Messages : 572

PHP
Netlinking Auto
Advertising
Site Web

Re : Scraping en masse à quoi faire attention ?

Il faut penser à scrapper sans itération, tu ne fais pas la page 1 puis la 2 puis la 3. Mais 1 => 150 => 22


CeKwa ?

Hors ligne

#13 2017-08-30 20:03:55

Mention jeromeweb
Soldier
Lieu : pas loin de paris
Inscription : 2014-10-12
Messages : 1 238

PHP
Automatisation Web

Re : Scraping en masse à quoi faire attention ?

J'ai lancé un scrap sur clubic.com avec expired domains finder (scrapebox) sans proxy : j'ai un forbidden sur toutes les pages maintenant. C'est con car il y a des articles interessants sur clubic lol

Pour reprendre ce qui a été dis plus haut : nombre de threads / seconde faible et proxys au cas ou


Blog perso jeromeweb.net - site pro : jerome-pasquelin.fr

Hors ligne

#14 2017-08-31 02:08:25

Mention Paf_le_Chien
Vagabond

Re : Scraping en masse à quoi faire attention ?

De toute facon le scraping, c'est surtout base sur les besoins reels.

Selon la/les taches, le volume, la rapidite du scrape souhaitee et l'importance de ce que tu scrape pour ton workflow, le setup et les securites ne seront pas le meme (autant en terme de logiciel utilise que de "machines").

Et tout est question de ROI, c'est a dire que si le scrape est une tache importante pour toi, voir primoridiale, tu ne veux definitivement pas faire ca sur ton pc, en mode tortue et te galerer a surveiller que tout se passe bien. Si par contre c'est pas du tout prioritaire, la tu peux te permettre de faire ca tranquillou avec 1 thread et des delais.

Pied de page des forums