Petit crawler scrapy

em1xam · #1 2014-05-11 13:47:53

Salut !

Je vous propose un petit robot python réalisé avec scrapy qui permet de crawler un site marchand et de recuperer des infos sur les produits (nom, prix, image et url).

J'ai suivi la doc ici : http://doc.scrapy.org/en/latest/intro/tutorial.html et j'ai fait quelques recherches pour parfaire le script (notamment sur stackoverflow.com)

Prérequis :
- installer scrapy
- créer un nouveau projet ( scrapy startproject mon_projet )
- renseigner le fichier items.py comme suit :

from scrapy.item import Item, Field

class MyItems(Item):

    FULL_NAME = Field()

    PRICE = Field()

    IMAGE = Field()

    DEEPLINK = Field()

    pass

Voici le code :

from scrapy.contrib.spiders import CrawlSpider, Rule

from scrapy.selector import Selector

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

# On importe les "items" du fichier items.py

from scrapcigaprix.items import MyItems

# On créer le robot en spécifiant son nom et le site à crawler

class MySpider(CrawlSpider):

    name = "mon-robot"

    allowed_domains = ["site-exemple.fr"]

    start_urls = [

                   "http://url-exemple.fr",       

          ]

# On utilise SgmlLinkExtractor avec follow=true pour recuperer toutes les url, en excluant celle qu'on ne veut pas (ici toutes les url contenant 'panier' ou 'html#')

   rules = (  

               Rule(SgmlLinkExtractor(allow=(), deny=('panier', 'html#')), callback="parse_em1xam", follow="True"), 

             )

    def parse_em1xam(self, response):

# grâce au selecteur et xpath, on selectionne dans chaque page le div avec l'id 'primary_block' (c'est souvent là que se trouvent les infos du produit)

        sel = Selector(response)

        sites = sel.xpath('//div[@id="primary_block"]')

        items = []

# enfin on recupere les infos, les chemins xpath sont des exemples souvent rencontrés sur des sites prestashop

        for site in sites:

            item = MyItems()

            item['DEEPLINK'] = response.url

            item['FULL_NAME'] = site.xpath('//h1/text()').extract()

            item['PRICE'] = site.xpath('//span[@id="our_price_display"]/text()').extract()

            item['IMAGE'] = site.xpath('//img[@id="bigpic"]/@src').extract()

            items.append(item)

        return items

Et voilà, ensuite pour le lancer et recuperer le butin dans un fichier csv on utilise l'invit de commande : on se deplace dans le dossier du projet (exemple : cd Desktop/mon_projet) et on tape :

scrapy crawl mon-robot -o resultats.csv -t csv

 

Et le tour est joué

Si vous avez des idées pour l'améliorer ou si vous savez comment faire pour traiter directement les infos obtenues je suis preneur ! ( pour l'instant j'importe manuellement le fichier dans une bdd et j'utilise des requetes sql pour faire le tri )