Vous n'êtes pas identifié(e).
Pages :: 1
Hello World !
Je fais suite au partage de script de xcepty (merci au passage) pour proposer ma version.
Elle est basé sur la class Crawler-Detect de JayBizzle qui détecte énormément de spiders et autres crawlers.
Prérequis :
- PHP >= 5.3 : à cause des namespaces contenu dans le code, sinon cela vous verra de beaux parse error.
- la class Crawler-Detect : https://github.com/JayBizzle/Crawler-Detect
- le script ci-dessous
Prérequis si vous voulez faire des tests chez vous ou online :
- PHP >= 5.3 : à cause des namespaces contenu dans le code, sinon cela vous verra de beaux parse error.
- composer (vous ne connaissez pas Composer ? Pauvre fou, votre vie avec php sera grandement facilité, go :
- le bouzin : https://getcomposer.org/
- le tuto : https://www.grafikart.fr/tutoriels/php/composer-480
- la class Crawler-Detect : https://github.com/JayBizzle/Crawler-Detect
- le script ci-dessous
C'est bien de pouvoir détecter googlebot, mais c'est mieux si on peut détecter également yahoo et bing, bien que yahoo utilise maintenant bing il me semble. Comme ça votre fusible enverra tout le jus à votre MS ou autre. Si c'est un autre crawler ou visiteur, bah il aura une page bidon, je trouve cela meilleurs qu'une page blanche.
// Variable qui contient l'instance de détection
$CrawlerDetect = new CrawlerDetect;
// Le blabla à afficher si ce n'est pas un crawler
$blaBla = " <head>
<meta charset='utf-8'>
<meta http-equiv='X-UA-Compatible' content='IE=edge,chrome=1'></head><body><p>
<h1>J'apprends à faire du htmleux !</h1>
<p>
L’Hypertext Markup Language, généralement abrégé HTML, est le format de données conçu pour représenter les pages web. C’est un langage de balisage permettant d’écrire de l’hypertexte, d’où son nom. HTML permet également de structurer sémantiquement et de mettre en forme le contenu des pages, d’inclure des ressources multimédias dont des images, des formulaires de saisie, et des programmes informatiques. Il permet de créer des documents interopérables avec des équipements très variés de manière conforme aux exigences de l’accessibilité du web. Il est souvent utilisé conjointement avec des langages de programmation (JavaScript) et des formats de présentation (feuilles de style en cascade). HTML est initialement dérivé du Standard Generalized Markup Language (SGML).
balbalblabalblablalbaba
</p></body>";
// on test si c'est un crawler, sinon c'est un visiteur alors on affiche du blabal
if($CrawlerDetect->isCrawler())
{
// si oui on enregistre son nom pour le test plus bas
$searchRobots = $CrawlerDetect->getMatches();
if($searchRobots == 'Googlebot' || $searchRobots == 'msnbot' || $searchRobots == 'Slurp')
{
//On redirige vers notre MS (Money Site ou autre)
header("Status: 301 Moved Permanently", false, 301);
header("Location: http://www.votre-site.com");
exit();
}
else
{
// C'est pas un bot google/yahoo/bing alors on affiche le blabla
echo $blaBla;
}
}
else
echo $blaBla;
?>
Enjoy !
“Un changement en prépare un autre.” Machiavel
🔴 Hors ligne
🔴 Hors ligne
Sauf que la fonction isCrawler() me fait peur, j'ai jetté un œil sur Github, c'est moi ou c'est juste un cloaking sur User Agent que tu nous sors là ?
+1.
skype : blaise.clement
🔴 Hors ligne
Oui c'est pour ça que cela vient en complément du partage de xcepty.
Dès que j'ai le temps je fais un script plus global. Cad avec la vérification User Agent ici présent + IP de xcepty + Host
Un petit lien sympa : http://oseox.fr/black-hat/cloaking.html
“Un changement en prépare un autre.” Machiavel
🔴 Hors ligne
Encore une fois, je pense que le script que j'ai donné sur mon thread mérite de grosses améliorations, si certains peuvent confirmer la chose ce serait cool, qu'on installe pas non plus n'importe quoi chez nous
A noter que si le script doit évoluer, il faut faire évoluer la regex indiquée par Mitsu (je crois).
skype : blaise.clement
🔴 Hors ligne
Oui oui, de toute façon dans le fond peut-on réellement être sûr d'avoir toutes les ranges de google ou autre ?
Un autre lien sympa, à moins que tu connais déjà : http://chceme.info/ips/
“Un changement en prépare un autre.” Machiavel
🔴 Hors ligne
Oui je connais, j'étais partit sur ces ips là mais j'ai préféré checké mes logs pour élargir le truc.
Merci pour les autres, y a de quoi faire maintenant
skype : blaise.clement
🔴 Hors ligne
pour info j'avais aussi publié une liste ip googlebot
🔴 Hors ligne
Pages :: 1