Vous n'êtes pas identifié(e).
Pages :: 1
Bonjour à tous,
Est-ce que vous connaissez une méthode ou un tuto pour scraper des lignes de code HTML précise.
Pouvoir scraper dans le code source en gros.
Mon but est de récupérer les codes EAN des fiches produits sur des sites-ecommerce, et ils sont trouvables uniquement dans le code source et non en front.
Habituellement j'utilise webscraper.io avec lequel j'ai pu avoir les produits/prix/description... mais je n'arrive pas à chopper une ligne dans le code source.
Merci à tous
🔴 Hors ligne
Hello,
Tu cherches avec une librairie pour du dév, ou avec une interface prête à l'emploi ?
Pour du dév php, perso j'ai déjà utilisé ca https://simplehtmldom.sourceforge.io/ c'est assez simple mais plutôt pratique, ca permet de cibler ce qu'on veut.
🔴 Hors ligne
Merci beaucoup pour ta réponse
Effectivement je n'ai pas précisé !
Je suis pas très bon en dev donc je préfère un truc clé en main.
Après si c'est des scripts Python ou Php pas très compliqué ça peut aller, je suis capable de lire du code c'est écrire qui me pose problème.
Je me demandais si c'était possible avec iMacros ect
Par exemple avec ce que tu m'as envoyé, c'est un script qui me permet d'aller chercher dans une liste d'url dans un excel et après pour chaque URL aller chercher une ligne particulière ?
🔴 Hors ligne
Pour les tootls de scrap tu as ;
Zennoposter
ScrapBox
RddzScraper (open source ou version payante)
Ensuite pour sélectionner ta ligne, Regex ou Xpath en fonction de ce que tu recherches.
"Without Data You're just another person with an opinion" - W. Edwards Deming
🔴 Hors ligne
J'ai également trouvé Scrapy, qui est gratuit et qui nécessite juste un environnement Python, ça vaut le coup ?
🔴 Hors ligne
@SEOlipsism,
peux-tu nous donner un exemple de page contenant l'EAN 13 ?
🔴 Hors ligne
Alors j'ai pris un exemple sur un autre site :
On ce casque Marshall sur la FNAC : https://www.fnac.com/Casque-audio-Marshall-MID-Bluetooth-Noir/a10129158/w-4#int=S:Ventes%20flash%20Son|Toutes%20nos%20offres%20Son|436652|10129158|BL3|L1
Et dans le code source on a ça : "gtin13":"7340055332965",
Comment l'extraire et le faire sur des centaines d'url qui seraient dans un fichier excel ?
🔴 Hors ligne
un exemple en PHP en mode brute,
décoder le json des micro-data est plus safe
🔴 Hors ligne
Ok j'ai testé et ça marche nikel pour l'exemple de Fnac.
Si pour un site j'ai l'EAN dans un itemp prop, par exemple :
<meta itemprop="gtin13" content="2874596314521"/>
Comment tu configures ton preg_match ?
🔴 Hors ligne
🔴 Hors ligne
Merci beaucoup @devforever, j'arrive bien à extraire le code EAN d'une donnée structurée.
Maintenant j'aimerais pouvoir faire des boucles, en gros pouvoir l'automatiser sur plusieurs Url.
L'idée serait que le $URL soit une variable prise dans une ligne d'un fichier excel et qu'une fois le code EAN extrait, il prend la ligne en dessous.
Tu as une idée ?
🔴 Hors ligne
🔴 Hors ligne
Pages :: 1