Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

Annonce

Progressez rapidement avec nos formations SEO Skills | Venez rencontrer les membres de la communauté le 22 juillet 2017 à Marseille #RogueLibre

#1 2016-12-14 11:18:30

Mention Dukofo
Soldier
Inscription : 2015-07-21
Messages : 1 066

Netlinking
Networking SEO

Regex & Sitemap

Bonjour,

Je voudrais créer plusieurs sitemap pour voir l'indexation de chaque catégorie rapidement dans le Search Console.
J'ai deux types d'url que je voudrais séparer celle contenant une extension .html et les autres.

En utilisant Screaming Frog, je suis arrivé à exclure via le regex :  ^.*\.(html)$ toutes les URLs ne contenant pas l'extension .html
J'ai donc créer mon premier sitemap de cette façon et maintenant je voudrais avoir une extraction des url qui contiennent uniquement l'extension .html

Toujours compliqué de travailler avec des Regex et là vu que je bloque depuis un petit moment, je demande votre aide.

Merci de vos réponses.

Hors ligne

#2 2016-12-15 08:26:16

Mention Gones
Recruit
Lieu : 63
Inscription : 2015-05-23
Messages : 24

Développement PHP
Développement Python
Développement JS
Scraping

Re : Regex & Sitemap

(.*\.html)$ ça devrait marcher.

Un site utile pour tester tes regex => https://www.regex101.com/

Hors ligne

#3 2016-12-15 08:33:52

Mention Mitsu
Soldier
Inscription : 2014-11-17
Messages : 1 854

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Regex & Sitemap

Regex : <loc>([^\.]+.html)</loc>

Sinon en xpath avec //loc puis tu filtre ensuite sur .html dans excel.

Tu peux aussi ouvrir un sitemap avec excel , il te liste toutes les urls, ensuite tu fais un filtre sur .html.

Dernière modification par Mitsu (2016-12-15 08:34:35)


Mitsu, un Expert SEO qui se fait une joie de partager ses délires sur internet...

Hors ligne

#4 2016-12-15 09:30:13

Mention Dukofo
Soldier
Inscription : 2015-07-21
Messages : 1 066

Netlinking
Networking SEO

Re : Regex & Sitemap

Merci de vos réponses.
En faite les deux solutions ne fonctionne pas directement dans Screaming Frog.

Je voulais directement trier les URLS contenant uniquement l'extension .html dans Screaming Frog pour gagner du temps lors de la création de Sitemap, vu que je serais à terme obliger de le refaire plusieurs fois.

Je vais être obliger de passer par Excel pour trier le sitemap et garder uniquement les .html.

Sinon autre question, du coup dans le cas de la création de plusieurs Sitemap, je dois créer un sitemap index selon les directives de google, qui contiendra mes plusieurs sitemaps.
Mais avec cette façon là, je ne peut voir exactement l'indexation de chaque sitemap non ? Seulement l'indexation du sitemap index ?

Je vais test, mais si c'est le cas, je serais obliger de ne pas utiliser d'index sitemap, tanpis pour les consignes GG.

Hors ligne

#5 2016-12-15 09:33:26

Mention Linuxma
Soldier
Inscription : 2015-05-13
Messages : 773

Netlinking
Scraping
Automatisation Web
Comunity Management
Site Web

Re : Regex & Sitemap

@Dukofo essaie avec : .*\.html

Hors ligne

#6 2016-12-15 09:59:22

Mention Gones
Recruit
Lieu : 63
Inscription : 2015-05-23
Messages : 24

Développement PHP
Développement Python
Développement JS
Scraping

Re : Regex & Sitemap

Dans la Search Console tu auras le détails pour chaque sitemap lister dans ton siteindex.

Hors ligne

#7 2016-12-15 10:54:05

Mention nides
Recruit
Inscription : 2016-04-13
Messages : 93

Re : Regex & Sitemap

Il suffira que sur la Search Console, dans les sitemap, tu cliques sur ton fichier index et tu verras le nombre d'URL envoyées/indexées pour chaque sitemap.


Achat/échange BL thémas Chien et Puériculture  - Je peux proposer généraliste, santé, sport, immo...

Hors ligne

#8 2016-12-15 12:39:22

Mention Dukofo
Soldier
Inscription : 2015-07-21
Messages : 1 066

Netlinking
Networking SEO

Re : Regex & Sitemap

Yep, merci pour les conseils.
Le sitemap index marche correctement.

Pour le deuxième sitemap, j'ai été obligé de passer par excel.
Pour pouvoir y arriver directement depuis Screaming Frog, il faudrait pouvoir passer depuis la fonction Exclude et du coup exclure les URL ne contenant pas l'extension .html
Si vous avez une regex pour ca, je veut bien le tester mais sinon je me suis débrouiller avec excel.

Merci pour vos retours.

Hors ligne

#9 2016-12-15 13:56:14

Mention razbithume
Soldier
Inscription : 2013-09-17
Messages : 821

Audit et Analyse
Scraping
Marketing
Site Web

Re : Regex & Sitemap

et si tu fais juste include .*html ca ne marche pas ?


Vive les regex et le xpath !

Hors ligne

#10 2016-12-15 14:03:27

Mention Dukofo
Soldier
Inscription : 2015-07-21
Messages : 1 066

Netlinking
Networking SEO

Re : Regex & Sitemap

Nop, cela s'arrête à la page d'accueil dans mon cas présent.

Hors ligne

#11 2016-12-15 14:11:30

Mention Gones
Recruit
Lieu : 63
Inscription : 2015-05-23
Messages : 24

Développement PHP
Développement Python
Développement JS
Scraping

Re : Regex & Sitemap

^(?!.*\.html).*

pour exclure les urls qui ne contiennent pas .html

Hors ligne

#12 2016-12-15 14:35:49

Mention Dukofo
Soldier
Inscription : 2015-07-21
Messages : 1 066

Netlinking
Networking SEO

Re : Regex & Sitemap

Gones a écrit :

^(?!.*\.html).*

pour exclure les urls qui ne contiennent pas .html

Fonctionne pas non plus, Screaming Frog s'arrête à la home.

Hors ligne

#13 2016-12-15 14:53:36

Mention Mitsu
Soldier
Inscription : 2014-11-17
Messages : 1 854

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Regex & Sitemap

Tu peux m'envoyer l'url de ton fichier sitemap index par mp ? A partir de ça tu veux toutes les urls en .html de tous les sitemap lié à l'index ?

Je peu regardé si tu veux, ça doit pas être bien méchant.


Mitsu, un Expert SEO qui se fait une joie de partager ses délires sur internet...

Hors ligne

#14 2016-12-15 15:17:50

Mention Dukofo
Soldier
Inscription : 2015-07-21
Messages : 1 066

Netlinking
Networking SEO

Re : Regex & Sitemap

Merci @Mitsu c'est sympa, mais j'y suis arrivé.
Trier avec excel n'était pas bien compliqué, je cherchais juste une méthode pour le faire directement dans Screaming Frog pour aller plus vite les prochaines fois.

Hors ligne

#15 2016-12-15 15:24:33

Mention Dukofo
Soldier
Inscription : 2015-07-21
Messages : 1 066

Netlinking
Networking SEO

Re : Regex & Sitemap

Sinon j'ai une autre problèmatique, ces regex vont me rendre fou wink
Je voudrais extraire les liens externes d'un domaine.
Je cherche la solution en Xpath, Regex ou CSS Path comme vous voulez lol

Je recherche le moyen d'extraire uniquement les liens externes en a href, pas de liens internes.

Il y en a qui utilisent Scrapy ici sinon ? Pour l'instant je fais tout avec Screaming Frog, c'est plus simple, mais je sens qu'il faudra bien que je mette à apprendre à utiliser Scrapy.

Hors ligne

#16 2016-12-15 17:41:30

Mention razbithume
Soldier
Inscription : 2013-09-17
Messages : 821

Audit et Analyse
Scraping
Marketing
Site Web

Re : Regex & Sitemap

//a[not(contains(@href,"ton nom de domaine"))]/@href

en xpath, tu prends toutes les balises a dont le href ne contient pas ton nom de domaine


Vive les regex et le xpath !

Hors ligne

#17 2016-12-16 08:34:37

Mention Dukofo
Soldier
Inscription : 2015-07-21
Messages : 1 066

Netlinking
Networking SEO

Re : Regex & Sitemap

Merci @Razbithume !

Hors ligne

Pied de page des forums