Pages :: 1
Alors je ne sais pas s'il y a un meilleur moyen pour faire ceci mais tu peux toujours regex (en text processing) pour ne faire ressortir que la version root et par la suite supprimer les duplicates ? Si tu veux garder l'url en entier, ça sera un grain plus compliqué mais rien de méchant.
_________
.
🔴 Hors ligne
# Comment nettoyer une liste d'URLS ?
J'ai une liste scrappé qui contient par exemple :
http://www.nomdedomaine1.com/article1
http://www.nomdedomaine1.com/article2
http://www.nomdedomaine1.com/article3
http://www.nomdedomaine2.com/article1
....Je souhaiterais donc traiter cette liste avec Zenno afin de ne garder qu'un seul élement par nom de domaine. J'ai déjà dans un premier temps supprimé les duplicates, mais je vois pas comment traité la suite.
Hello,
Si tu souhaites par exemple garder uniquement le NDD (sans doublon) après avoir scrappé des urls tu peux faire ça :
list processing -merge list (fusion de la liste dans une variable) ->text processing-replace (avec regex cf photo ci dessous, vous m’excuserez pour la qualité de la regex ^^) ->list processing add text (dans une nouvelle liste) ->list processing -remove duplicates (sur la nouvelle liste).
Formation Zennoposter High Level ▶ Skype : karnivore4949
Pas encore sur Zenno ? ▶ Rejoindre la communauté du meilleur tool d'automatisation
🔴 Hors ligne
Alors tu vas devoir faire ça avec 3 lists voilà un schéma :
ton résultat est dans list urls
Dernière modification par Julien_G (2016-09-06 14:56:25)
🔴 Hors ligne
Merci @karni, je viens de l'essayer mais malheureusement, c'est pas exactement ce que je voulais faire.
Ok je pensais que tu voulais garder le domaine.
Dans ce cas tu peux aussi faire un truc comme ça :
Formation Zennoposter High Level ▶ Skype : karnivore4949
Pas encore sur Zenno ? ▶ Rejoindre la communauté du meilleur tool d'automatisation
🔴 Hors ligne
Salut
Perso j'aurai fait plus court
tu classes ta liste par ordre alphabétique et tu fais une boucle :
si ligne 2 contient le même domaine que ligne 1 alors on supprime ligne 2 sinon on fait un +1 aux variables pour tester les lignes suivantes jusqu'a temps que ligne +1 est supérieur au nombre de ligne total de ta liste
Enjoy !
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
Toujours faire au plus court car sur des gros projets le simple gain X 100 threads peut donner un X10 en vitesse d'exécution
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
@Seoxis, je suis ok avec toi sur le principe de réduire au maximum les étapes d'1 template pour augmenter les perfs.
Pour le coup ta méthode est plus longue à la fois pour construire le template et aussi dans l’exécution de celui ci.
Dans ton approche tu check ligne par ligne si le domaine est identique: sort , count of lines + boucle + if logic...Il y a beaucoup plus d’étapes
que dans l'approche "delete lines par regex".
Dans ma logique tu recuperes le domaine et ensuite tu supprimes toutes les lignes d'un coup qui contiennent le même domaine.
Si ta liste contient 1000 urls avec 500 domaines identiques, ma méthode permet de supprimer tous les "doublons" d'1 coup au lieu tester les 500 urls one by one.
Après peut être que je n'ai pas compris ta méthode, n’hésite pas à poster un screenshot ou un snippet de ton approche, ça sera utile pour tous les users Zenno du fofo.
Formation Zennoposter High Level ▶ Skype : karnivore4949
Pas encore sur Zenno ? ▶ Rejoindre la communauté du meilleur tool d'automatisation
🔴 Hors ligne
Pages :: 1