Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Scraping Code HTML


#1 2019-10-31 12:18:01

Mention SEOlipsism
♟️ Grade : Recruit

Disciple
Inscription : 2019-09-03
Messages : 7
Likes : 0

Scraping Code HTML

Bonjour à tous,

Est-ce que vous connaissez une méthode ou un tuto pour scraper des lignes de code HTML précise.
Pouvoir scraper dans le code source en gros.

Mon but est de récupérer les codes EAN des fiches produits sur des sites-ecommerce, et ils sont trouvables uniquement dans le code source et non en front.

Habituellement j'utilise webscraper.io avec lequel j'ai pu avoir les produits/prix/description... mais je n'arrive pas à chopper une ligne dans le code source.


Merci à tous smile

0
J'aime ❤️

🔴 Hors ligne

#2 2019-10-31 12:21:41

Mention Mcurly
🥉 Grade : Scout

AuxiliaireIngénieur webStratège50likesConsomateur de Liens
Inscription : 2019-08-27
Messages : 213
Likes : 81

Développement PHP
intégration Html Css
Automatisation Web
Stratégie

Re : Scraping Code HTML

Hello,
Tu cherches avec une librairie pour du dév, ou avec une interface prête à l'emploi ?
Pour du dév php, perso j'ai déjà utilisé ca https://simplehtmldom.sourceforge.io/ c'est assez simple mais plutôt pratique, ca permet de cibler ce qu'on veut.

0
J'aime ❤️

🔴 Hors ligne

#3 2019-10-31 12:34:02

Mention SEOlipsism
♟️ Grade : Recruit

Disciple
Inscription : 2019-09-03
Messages : 7
Likes : 0

Re : Scraping Code HTML

Merci beaucoup pour ta réponse smile

Effectivement je n'ai pas précisé !
Je suis pas très bon en dev donc je préfère un truc clé en main.
Après si c'est des scripts Python ou Php pas très compliqué ça peut aller, je suis capable de lire du code c'est écrire qui me pose problème.

Je me demandais si c'était possible avec iMacros ect

Par exemple avec ce que tu m'as envoyé, c'est un script qui me permet d'aller chercher dans une liste d'url dans un excel et après pour chaque URL aller chercher une ligne particulière ?

0
J'aime ❤️

🔴 Hors ligne

#4 2019-10-31 13:11:54

Mention Trashbaby
🥉 Grade : Scout

AuxiliaireNarcissiqueStratège
Lieu : Bordeaux
Inscription : 2018-01-08
Messages : 247
Likes : 2

Netlinking
Audit et Analyse
Marketing
Sémantique

Re : Scraping Code HTML

Pour les tootls de scrap tu as ;
Zennoposter
ScrapBox
RddzScraper (open source ou version payante)

Ensuite pour sélectionner ta ligne, Regex ou Xpath en fonction de ce que tu recherches.


"Without Data You're just another person with an opinion" - W. Edwards Deming

0
J'aime ❤️

🔴 Hors ligne

#5 2019-10-31 14:06:06

Mention SEOlipsism
♟️ Grade : Recruit

Disciple
Inscription : 2019-09-03
Messages : 7
Likes : 0

Re : Scraping Code HTML

J'ai également trouvé Scrapy, qui est gratuit et qui nécessite juste un environnement Python, ça vaut le coup ?

0
J'aime ❤️

🔴 Hors ligne

#6 2019-10-31 14:07:57

Mention DevForEver
🥉 Grade : Scout

AuxiliaireIngénieur web10likes
Lieu : Alsace
Inscription : 2016-02-16
Messages : 178
Likes : 13

PHP
JAVA
DB Admin
Sécurité

Re : Scraping Code HTML

@SEOlipsism,
peux-tu nous donner un exemple de page contenant l'EAN 13 ?

0
J'aime ❤️

🔴 Hors ligne

#7 2019-10-31 14:39:45

Mention SEOlipsism
♟️ Grade : Recruit

Disciple
Inscription : 2019-09-03
Messages : 7
Likes : 0

Re : Scraping Code HTML

Alors j'ai pris un exemple sur un autre site :

On ce casque Marshall sur la FNAC : https://www.fnac.com/Casque-audio-Marshall-MID-Bluetooth-Noir/a10129158/w-4#int=S:Ventes%20flash%20Son|Toutes%20nos%20offres%20Son|436652|10129158|BL3|L1


Et dans le code source on a ça : "gtin13":"7340055332965",

Comment l'extraire et le faire sur des centaines d'url qui seraient dans un fichier excel ? smile

0
J'aime ❤️

🔴 Hors ligne

#8 2019-10-31 15:45:28

Mention DevForEver
🥉 Grade : Scout

AuxiliaireIngénieur web10likes
Lieu : Alsace
Inscription : 2016-02-16
Messages : 178
Likes : 13

PHP
JAVA
DB Admin
Sécurité

Re : Scraping Code HTML

un exemple en PHP en mode brute,
décoder le json des micro-data est plus safe big_smile


$URL = 'https://www.fnac.com/Casque-audio-Marshall-MID-Bluetooth-Noir/a10129158/w-4#int=S:Ventes flash Son|Toutes nos offres Son|436652|10129158|BL3|L1';
$PATTERN = '/"gtin13":"([0-9]{13})"/';
$html = load($URL);
if (preg_match($PATTERN, $html, $matches)) {
    echo 'EAN: '.trim($matches[1],'"');
}
else {
    echo 'non trouvé';;
}
function load(string $url) {
    $UA='Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0';
   
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 0);    
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_USERAGENT, $UA);    
    $buf = curl_exec($ch);    
    curl_close($ch);
   
    return $buf;
}
 
0
J'aime ❤️

🔴 Hors ligne

#9 2019-10-31 16:00:01

Mention SEOlipsism
♟️ Grade : Recruit

Disciple
Inscription : 2019-09-03
Messages : 7
Likes : 0

Re : Scraping Code HTML

Ok j'ai testé et ça marche nikel pour l'exemple de Fnac. smile

Si pour un site j'ai l'EAN dans un itemp prop, par exemple :

  <meta itemprop="gtin13" content="2874596314521"/>

Comment tu configures ton preg_match ?

0
J'aime ❤️

🔴 Hors ligne

#10 2019-10-31 16:23:41

Mention DevForEver
🥉 Grade : Scout

AuxiliaireIngénieur web10likes
Lieu : Alsace
Inscription : 2016-02-16
Messages : 178
Likes : 13

PHP
JAVA
DB Admin
Sécurité

Re : Scraping Code HTML

$PATTERN = '/"gtin13"\scontent="([0-9]{13})"/';

0
J'aime ❤️

🔴 Hors ligne

#11 2019-11-01 22:51:21

Mention Rimkaz
🥉 Grade : Scout

Auxiliaire
Inscription : 2019-07-25
Messages : 80
Likes : 6

Re : Scraping Code HTML

Merci pour l'exemple

0
J'aime ❤️

🔴 Hors ligne

#12 2019-11-04 08:09:55

Mention SEOlipsism
♟️ Grade : Recruit

Disciple
Inscription : 2019-09-03
Messages : 7
Likes : 0

Re : Scraping Code HTML

Merci beaucoup @devforever, j'arrive bien à extraire le code EAN d'une donnée structurée.

Maintenant j'aimerais pouvoir faire des boucles, en gros pouvoir l'automatiser sur plusieurs Url.

L'idée serait que le $URL soit une variable prise dans une ligne d'un fichier excel et qu'une fois le code EAN extrait, il prend la ligne en dessous.

Tu as une idée ? smile

0
J'aime ❤️

🔴 Hors ligne

#13 2019-11-04 11:28:51

Mention DevForEver
🥉 Grade : Scout

AuxiliaireIngénieur web10likes
Lieu : Alsace
Inscription : 2016-02-16
Messages : 178
Likes : 13

PHP
JAVA
DB Admin
Sécurité

Re : Scraping Code HTML

contacte moi en message privé

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums