Vous n'êtes pas identifié(e).
Bonjour
Je cherche la requete, unique, et la plus naturel possible, pour detecter qu'un site est spammé.
Prenom l'exemple suivant:
--https://www.piloteo.fr/softisisforum/forums/list.page
Quel requete unique proposé vous pour detecter (analyse de la reponse) que le site est spammé ?
Un piste, mais pas suffisant: http://www.google.com/safebrowsing/diag … /list.page
Dernière modification par Jojo_le_haricot (2014-05-23 07:15:52)
----
Chili con seo
🔴 Hors ligne
moi j'aurai dit plutôt de rechercher le footprint : "by jaffaar"
ok je sors
---
pour mieux t'aider il faudrait savoir ce que tu recherches exactement et pourquoi tu veux absolument rechercher des sites spammés
Négative SEO ?
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
Je cherche a identifié, a moindre cout (le moins de requete possible), si une target peut etre retenue ou non.
Contexte: ens e moment, je fait des footprint, et scrap pour trouver ou poster. Mais je m apercois qu indentifier des target ne suffit pas. Il faut les qualifier... Le minimum etant de savoir si une target est spammé ou pas. Car je ne souhaite pas poser un lien sur un site pourri de spam.
Alors, la premiere idée qui vient, c est de faire des "site:target.com viagra", mais le nombre de keyord a tester et trop gros, et ca impliquerai trop de charge a grande echelle.
Une autre methode serais de scrape google pour les spamword, et constituer une blacklist.. Mais je vaiis en rater plein.
Dans l exemple que je donne, il est mal indexé, donc je peux pas compter sur gg pour me dire s il est spammé.
Une autre methode serait de crawler les sites a la recherche des spamword, mais c est trop couteux. Faire cela sur 1M de sites.... C est la mort par le nutella.
Je cherche donc la magique query/appel api....
Une piste serai de se baser sur le DA, mais la je vais rater plein de target viable....
Vous comprenez mon dileme?
----
Chili con seo
🔴 Hors ligne
Je cherche a identifié, a moindre cout (le moins de requete possible), si une target peut etre retenue ou non.
Pour supprimer les sites spammés d'une liste de site , tu souhaites les identifier tous avant ?
c'est comme allez de Paris à Marseille en passant par la chine , les usa , au final tu vas arriver à destination mais entre deux tu auras consommé énormément de ressources
Perso je te conseille :
- de bien cibler ta requête de départ
- supprime les duplicate url
- check le PR du domaine
- supprime tous les domaines < PR 2
- check si les urls traitent de sexe , drogue & Rock N' Roll (et les supprimer)
- check le nombre de liens sortant et supprimer l'url si <100
déjà là ta liste aura été bien nettoyée
Après tu veux du lien NoFollow ou DoFollow tu peux checker ça aussi
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
Merci Seoxis, mais je cherche justement a rajouter une etape a ta liste (que je compte implementer)
C est qu un opinion, mais je pense qu une meilleur qualification des target est un must have 2014.
Si tu prend l exemple fournis, il passe ta ckeck list (jai pas checker le pr)
Et pourtant, c est un site a eviter absoluement....
D ou la necessite de mise en place de nouveaux process de qualif....
Personne a une idee?
----
Chili con seo
🔴 Hors ligne
Après libre à toi d'avoir une blacklist
Perso j'en ai une que j'alimente en permanence dès qu'un site devient trop présent et qu'il n'autorise pas les commentaires
par contre blacklister un site dont une page est méga spammé n'est pas à faire car ça veut dire que le gars est light sur sa modération et même si une page est méga spammé il y a peut-être d'autres pages pas spammé dont tu arriverais à mettre un lien facilement (comme la modération est light)
Dernière modification par Seoxis (2014-05-23 20:17:10)
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
Au nombre d'OBL ?
Dans le cas des forums, tu peux regarder le nombre de post par user, là ils sont tous à 1.
Dernière modification par Automate (2014-05-23 20:56:10)
🔴 Hors ligne
Au nombre d'OBL ?
Dans le cas des forums, tu peux regarder le nombre de post par user, là ils sont tous à 1.
C est une piste interessante, mais trop propre aux forum.
Je cherche un truc plus generique
----
Chili con seo
🔴 Hors ligne
Automate a écrit :Au nombre d'OBL ?
Dans le cas des forums, tu peux regarder le nombre de post par user, là ils sont tous à 1.
Merci Automatre, C est une piste interessante, mais trop propre aux forum.
Je cherche un truc plus generique
----
Chili con seo
🔴 Hors ligne
Jojo
réévalue ton idée de départ, elle est pas mauvaise. "site:www.spot.com viagra" est la meilleure solution à mon avis.
Je me trompe peut être, mais si un site est ultra spammé, il y a forcément Viagra ou Cialis. Si le site est spammé, mais qu'il n'est pas spammé sur viagra, c'est que probablement il n'est pas ultra spammé. Donc c'est pas vrai que tu doives tester beaucoup de mot clé. Suffit de faire une statistique, prends 10 sites "ultra spammés" et vérifie en % la présence de Viagra. Mon petit doigt me dit que le taux de positifs est énorme.
Essaie de regarder ton problème différemment. Si c'était possible de détecter à coup sûr du SPAM avec une simple requête, Matt Cutts pointerai au pôle emploi. Ce qui signifie très probablement que ta requête miracle ultra fiable n'existes pas. Part sur un truc simple, qui coûte peu, et qui est en mesure de balayer une bonne partie du spam.
Aussi si tu veux vérifier plusieurs mots clés en minimisant le nombres de requêtes tu as aussi ceci : site:www.spot.com viagra | cialis | payday loan
Le risque de faux positifs existe aussi, tu peux affiner peut être avec : site:www.spot.com buy viagra | buy cialis | best payday loan
Dernière modification par Walid (2014-05-24 22:17:03)
🔴 Hors ligne
Salt Bigorno, et merci pour ta reponse.
Sur le principe, je suis d accord.
Mais tout les tests de recherche google de spamword ne me font pas remonter cette exemple comme spamy.
En fait, il a une seul thread, et elle est pas indexé...
Le requete que tu donne est satisafaisant pour une premiere passe pour degrossir....
Mais je veux trouver tout de meme la methode la moin conssomatrice de trigué cette exemple.
Le pire etant de le crawler (genre 50page), et de scanne la presence de spamword... Au pire, c est ce que je finirais par faire.
Mais, je continue a cherche...
C est pas parceque gg ne la pas indexé qu il n est pas indexé ailleur... Archive.org... Je cherche
----
Chili con seo
🔴 Hors ligne
Et si tu faisais "confiance à google" en regardant si le domaine a une page dans la sandbox ? Je suis assez d'accord avec Bigorno sur le fait que si google galère, tu risques d'avoir du mal aussi
Tu fais ta requete sur le deuxième index (je me souviens plus de comment on fait), et si un page apparait, c'est que le site est spammé, tu passes ton tour.
Si rien à signaler, go !
Dernière modification par Automate (2014-05-25 21:56:31)
🔴 Hors ligne
Je connais pas ce deuxieme index.... Mais ca m interesserait d ens avoir plus.
.erci Automate pour l idee
----
Chili con seo
🔴 Hors ligne
Tu peux aussi voir les ancres des OBL, et essayer de filtrer si ils contiennent des mots de pilule bleues, des marques célébres de sac, ou encore de sport de cartes ...
Comme vous pouvez le constater, je n'ai pas employé de mots clés interdits ....
🔴 Hors ligne
Pour faire le test sur l'index secondaire il faut utiliser la requête site:yourdomain.com/& dans google.
Mais bon pas sur que ça soit la requête miracle, cet index secondaire correspond aux pages indexées mais qui n'apparaitront pas dans les serps, pour différentes raisons et pas seulement du spam.
Pour exemple, le forum à 15% de ses pages dans l'indexe secondaire, il est pas forcément très spammy (mais bien dark )
🔴 Hors ligne
Automate, il me sort la meme chose avec ou sans & : site:https://www.piloteo.fr/softisisforum/forums/&
Merci pour l idee
Dernière modification par Jojo_le_haricot (2014-05-27 17:44:53)
----
Chili con seo
🔴 Hors ligne
Merci Guitouxx,
La commande de recherche des leins sortant bing ne trouve rien...
Ce site est une enigme pour moi.
Je pense que c est un honeypot
----
Chili con seo
🔴 Hors ligne
Je comprends pas pourquoi tu t'attardes sur cet exemple en particulier.
--https://www.google.fr/#q=site:www.piloteo.fr+pills
Dernière modification par Walid (2014-05-27 21:13:37)
🔴 Hors ligne