[Question PHP] Modifier html à la volée avec Simple HTML DOM

Walid · #1 2016-01-24 09:28:35

Salut,

j'utilise la classe simple_html_dom.php depuis un moment pour faire du scrapping, mais aujourd'hui je rencontre une limite. Je suis presque certain qu'il y a une solution

En récupérant le dom de n'importe quelle page, on peut par exemple extraire la valeur de tous les H2 ainsi

include('simple_html_dom.php');

$html = new simple_html_dom();

$html = file_get_html('http://www.site-web.com');

foreach ($html->find('h2') as $h2) {

echo $h2->plaintext.'<br/>';

}

Jusque là très bien, mais supposez que je veuille garder le dom original tel quel, à la différence que je veux remplacer toutes les valeurs des balises h2 par "Hello World".

D'après ce que j'ai lu il suffit de faire ça

include('simple_html_dom.php');

$html = new simple_html_dom();

$html = file_get_html('http://www.site-web.com');

foreach ($html->find('h2') as $h2) {

$h2->plaintext = 'hello world';

}

Sauf que si je ne m'abuse, les nouvelles valeurs n'affectent pas le dom original. En effet si j'explore le dom à nouveau, je me rends compte qu'il n'a pas changé et je retrouve les valeurs d'origine des h2.

Normalement cela doit être tout à fait possible de faire ça avec cette classe, c'est certainement moi qui l'utilise mal. Est-ce que quelqu'un peu éclairer ma lanterne ?

Merci d'avance pour vos contribs

NicolasWeb · #2 2016-01-24 09:42:49

je pense que ton $h2 est une copie c'est pour cela que ça ne modifie pas.
je n'ai pas d'environnement PHP sous la main mais tu peux commencer par tenter de passer $h2 par référence en l'appelant &$h2 : http://php.net/manual/fr/language.references.pass.php

Mais vu que tu modifie le dom dans ta boucle foreach j'ai un doute que cela fonctionne comme cela...

Bon courage, je regarderai ça plus en détail demain si tu es toujours coincé

Soul · #3 2016-01-24 12:31:50

Si la solution du dessus ne marche pas, tu peux faire :

include('simple_html_dom.php');

$html = new simple_html_dom();

$html = file_get_html('http://www.site-web.com');

foreach ($html->find('h2') as $key => $h2) {

    $h2->plaintext = 'hello world';

    $html->find('h2', $key)->innertext = 'foo';

}

Walid · #4 2016-01-24 13:46:13

Soul a écrit :

Si la solution du dessus ne marche pas, tu peux faire :
include('simple_html_dom.php');
$html = new simple_html_dom();
$html = file_get_html('http://www.site-web.com');
foreach ($html->find('h2') as $key => $h2) {
$h2->plaintext = 'hello world';
$html->find('h2', $key)->innertext = 'foo';
}

Top ! ben oui, tu modifies direct l'objet, j'essaie de suite

Merci Soul

Walid · #5 2016-01-24 17:48:53

Merci Soul, ça marche très bien comme àa en modifiant l'objet avec la bonne clé. C'est la bonne piste pour moi.

Pour l'instant je me heurte à des problèmes un peu plus chauds, par exemple quand les tags incluent d'autres tags.

Si j'ai ça par exemple...

<p>Salut les <a href="file.html">amis</a></p>

Je dois réussir à remplacer par

<p>Coucou les <a href="file.html">potes</a>

Le tout sans savoir à l'avance si je vais manipuler des tag <li>,<p>,<h2>,<div>, etc.

je dois réussir à modifier

Jaffaar · #6 2016-01-24 17:56:58

avec ce que tu as deja tu detecte les sequences, tu prépare tes spins a coté, en regardant ce qui match entre tes sequences et ton dico, puis après c'est la toute la question.

des str replaces a partir des sequences de base comme facteur de detection ? assez sécurisé quand même, genre pas sur un mot ou deux, mais un groupe de sequence spinnée, du même element, interpreté et prete a être remplacante de la sequence de base.

Sinon recréer un nouveau dom et utilisant ce que tu ne va pas modifier de l'original, la lecture pour cela suffit, puis a la volée les partie que tu souhaite spinner tu les traite.

Je ferai comme ca perso je pense.

Walid · #7 2016-01-24 18:02:15

Jaffaar... j'ai capté quetchi !

Mais qu'est ce qui te fait croire que je veux faire du content spinning ?

Jaffaar · #8 2016-01-24 18:27:10

Bigorno a écrit :

Jaffaar... j'ai capté quetchi !
Mais qu'est ce qui te fait croire que je veux faire du content spinning ?

Oh trois fois rien , on en parle sur skype

Soul · #9 2016-01-24 19:12:47

Ça ressemble à quoi ta chaîne d'entrée ?

Si ta "Salut les" => "Coucou les", tu fais un str_replace(">Salut les<", ">Coucou les<") mais je suis pas sur de comprendre ce que tu veux.

Mitsu · #10 2016-01-24 19:24:01

Pour gérer le problème des tags, il faudrait que tu fasses des replace avec des regex, j'aime pas trop utiliser ces conneries mais bon dans l'idée si tu fais un replace de "Salut{regex}les{regex}potes"
par "Coucou{regex}les{regex}amis" avec une regex qui tolère les espaces, virgules et tag <.*> etc...
Je ne sais pas si ça répond à ta question pour le coup. Mais bon ça nécessiterai plutôt de traiter ta page en mode chaîne de caractère plutôt que comme du dom.

Walid · #11 2016-01-28 11:10:34

Merci pour vos réponses, je clarifie un peu le besoin

je récupère un dom complet d'une page web quelconque. J'ai besoin de spiner le contenu (j'ai déjà un dico interne), tout en gardant le dom intact, sauf que le spin peut potentiellement casser mon dom, voilà un exemple

supposons que dans un morceau du dom j'ai <a href="referencement.html">référencement</a> et que mon spin effectue un remplacement du mot "référencement" par "SEO", je me retrouve avec <a href="SEO.html">SEO</a> ce qui ne va pas du tout pour moi.

C'est pour ça que plutôt que de travailler sur le html comme une chaine de caractère j'envisage de manipuler l'objet dom

Woods · #12 2016-01-28 11:21:02

Je te propose ce que j'aurais fait instinctivement, ce n'est peut être pas la solution la plus simple ni celle qui pompe le moins de mémoire.

<a href="referencement.html">référencement</a>

je fais une regex qui prend ce qu'il y a entre les balises et y compris "<" et ">", je stock dans un tableau, par ex:

tab[0] = "<a href="referencement.html">";
tab[1] = "</a>";

Et je fais un str_replace($tab[0], "%chaine0%", $source);
...

les termes tels que %chaine0%, %chaine1% ne sont pas dans ton dico donc ils ne seront pas touchés.

Puis une fois que ton contenu est spinné, tu fais ré apparaître tes liens intact.

Je suis à côté de la plaque ça se trouve lol

Aussi, je stockerais chaque type de balise (p, div, ...) dans un tableau puis foreach et si on tombe sur une balise <a href on fait ceci... sinon si on tombe sur ...

Dernière modification par Woods (2016-01-28 11:24:31)

Jaffaar · #13 2016-01-28 11:50:57

tu codes maintenant woods ?

Woods · #14 2016-01-28 12:11:06

Jaffaar a écrit :

tu codes maintenant woods ?

J'ai toujours codé Jaff , juste que c'est pour des besoins spécifiques, jamais de gros projets.
Rarement lisible et compréhensible mais le principal c'est que j'arrive à combler mon besoin lol

Jaffaar · #15 2016-01-28 13:00:34

content de l'apprendre

Walid · #16 2016-02-02 14:30:47

Après quelques galères voici un code qui fonctionne pour évoluer dans l'objet dom et modifier les valeurs ou attributs des éléments à la volée.

J'ai ajouté des flags "[protected] $var[/protected]" dans le code pour m'assurer que j'isole bien les éléments indépendamment des autres, pour pouvoir aussi faire des modif sur les éléments "parent" sans casser les modif éventuellement effectuées sur des éléments "enfant". En fonction de ce que vous voulez faire il suffit de manipuler $var

include ('simple_html_dom.php');

$page = file_get_contents('http://www.ndd.com');

    $html = new simple_html_dom();

    $html = str_get_html($page);

    parse($html);

    echo $html;

    function parse($html){

      foreach($html->find('*') as $key => $tag){

        $array = $tag->children(-1);

        if ($array){

          parse($tag);

          if(preg_match('#\[\/protected\]#',$tag->innertext) && $tag->tag!='img'){

            $string = str_replace('[/protected]','[/protected]***',strip_tags($tag->innertext));

            $tab = explode('***',$string);        

            foreach($tab as $match){

              $match = preg_replace('#\[protected\](.*)\[\/protected\]#','',$match);

              if(preg_match('#[a-z]{2,}#U',$match)){

                $new_val = '[protected]'.$match.'[/protected]';

                $tag->innertext = str_replace($match,$new_val,$tag->innertext);

              }

            }

          }

          else {

            if($tag->tag!='img' && preg_match('#[a-z]{2,}#i',$tag->plaintext))

            $tag->innertext = '[protected]'.$tag->innertext.'[/protected]';

          }

        }

        else {

          if($tag->tag!='img' && preg_match('#[a-z]{2,}#i',$tag->plaintext))

          $tag->innertext = '[protected]'.$tag->innertext.'[/protected]';

        }

      }

    }

N'hésitez pas si vous voyez des erreurs dans le code, je l'ai utilisé à plusieurs reprises sans erreurs pour le moment

ciboulette · #17 2016-02-16 09:33:12

<?php

$doc = new DOMDocument;

@$doc->loadHTMLFile('http://www.lightonseo.com/');

$xpath = new DOMXPath($doc);

$nodes = $xpath->query('//text()');

foreach ($nodes as $node) {

    $node->nodeValue = str_replace("SEO", "Bigorno", $node->nodeValue);

}

echo $doc->saveHTML();

Sinon comme ça
bon apres le str_replace tu mets ce que tu veux a la place biensur

Walid · #18 2016-02-16 10:25:40

ciboulette a écrit :

<?php
$doc = new DOMDocument;
@$doc->loadHTMLFile('http://www.lightonseo.com/');
$xpath = new DOMXPath($doc);
$nodes = $xpath->query('//text()');
foreach ($nodes as $node) {
$node->nodeValue = str_replace("SEO", "Bigorno", $node->nodeValue);
}
echo $doc->saveHTML();

Sinon comme ça
bon apres le str_replace tu mets ce que tu veux a la place biensur

Alors le code que j'ai posté marche très bien, par contre le tiens à l'air bien frais

Je vais regarder ça, mais elle fait quoi exactement la methode query('//text()') ? J'ai pas encore maté la doc

J'ai jamais utilisé DOMDocument pour l'instant, mais ce qui est rassurant avec c'est que c'est maintenu et dans la doc php, contrairement à la classe simple_html_dom (qui fonctionne aujourd'hui) mais qui n'est plus du tout maintenue

ciboulette · #19 2016-02-17 10:31:34

texte ba ça selectionne le texte uniquement entre les balises.
d'ailleur le code prendra le javascript

$nodes = $xpath->query('/html/body//text()');

 

la ça ne prendra uniquement que le contenu du body.

Ce qui est cool et rapide avec xpath en plus c'est que si tu veut allez vite :
1/Tu va sur ton site (example le tien)
2/ clic droit inspecté élément
3/ Dans le code source tu fait clique droit sur la zone (genre <p></p>) qui t’intéresse
4/ Copy -> Copy Xpath (//*[@id="post-1227"]/div[2]/p)
5/ Tu modifie ton bout de code : $nodes = $xpath->query('//*[@id="post-1227"]/div[2]/p//text()');

et voila en 3 clique tu peu ciblé une zone précises sachant que le * reste ton meilleur amis : tu peu faire : $nodes = $xpath->query('//*[@id="post-*"]/div[2]/p//text()');

donc prendre uniquement les Posts de la page

Walid · #20 2016-02-17 10:57:38

ciboulette a écrit :

texte ba ça selectionne le texte uniquement entre les balises.
d'ailleur le code prendra le javascript

$nodes = $xpath->query('/html/body//text()');

la ça ne prendra uniquement que le contenu du body.
Ce qui est cool et rapide avec xpath en plus c'est que si tu veut allez vite :
1/Tu va sur ton site (example le tien)
2/ clic droit inspecté élément
3/ Dans le code source tu fait clique droit sur la zone (genre <p></p>) qui t’intéresse
4/ Copy -> Copy Xpath (//*[@id="post-1227"]/div[2]/p)
5/ Tu modifie ton bout de code : $nodes = $xpath->query('//*[@id="post-1227"]/div[2]/p//text()');
et voila en 3 clique tu peu ciblé une zone précises sachant que le * reste ton meilleur amis : tu peu faire : $nodes = $xpath->query('//*[@id="post-*"]/div[2]/p//text()');
donc prendre uniquement les Posts de la page

Oui mais non

Si tu lis bien le thread, le besoin était d'explorer tous les noeuds sans connaître à l'avance le site sur lequel tu opères. Quand il s'agit d'un site que tu connais pas de souci.

Le problème avec ça :

$nodes = $xpath->query('/html/body//text()');

 

est que je vais récupérer un full text qui dans mon cas est inutile, j'avais besoin de préserver tout le code html de la page. La solution devait pouvoir boucler sur tous les noeuds du dom et être efficace même sur les cas particuliers. Je te donne deux exemples

<strong><a href="test.html">mon super test</a></strong>

 

Si je demande a un parser de me filer les plaintext de toutes les balises html, il va me filer "mon super test" deux foix : 1 fois pour <strong> et une fois pour <a>. Or dans l'exemple ci-dessus j'ai besoin qu'il ignore le strong. Voici un autre cas plus chiant.

<p>Bonjour à tous, <strong>la météo est <a href="test.html">clémente</a> depuis quelque jours</strong>. Nous pourrions <strong>envisager</strong> une sortie.

 

Si je veux spinner le contenu de la balise p, j'ai du découper et spinner les zones qui ne contiennent pas de tag enfants :

*** Bonjour à tous
*** Nous pourrions
*** Une sortie

Ensuite j'ai du spinner le contenu des tags enfants avec le même besoin de vérifier si eux mêmes n'avaient pas de tag enfants. Pour les balises strong par exemple

*** la meteo est
*** depuis quelques jours
*** envisager

Je voulais aussi éviter les regex, parce que c'est chiant et pour éviter des soucis à cause d'erreurs html

Le fait est que j'ai réussi à le faire avec du parsing, ç'est gourmand en mémoire mais ça marche. Bien sûr je suis ouvert à toute alternative ou méthode différente plus simple ou qui ferait gagner du temps

🟣 [Question PHP] Modifier html à la volée avec Simple HTML DOM

#1 2016-01-24 09:28:35

[Question PHP] Modifier html à la volée avec Simple HTML DOM

#2 2016-01-24 09:42:49

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#3 2016-01-24 12:31:50

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#4 2016-01-24 13:46:13

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#5 2016-01-24 17:48:53

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#6 2016-01-24 17:56:58

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#7 2016-01-24 18:02:15

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#8 2016-01-24 18:27:10

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#9 2016-01-24 19:12:47

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#10 2016-01-24 19:24:01

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#11 2016-01-28 11:10:34

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#12 2016-01-28 11:21:02

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#13 2016-01-28 11:50:57

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#14 2016-01-28 12:11:06

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#15 2016-01-28 13:00:34

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#16 2016-02-02 14:30:47

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#17 2016-02-16 09:33:12

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#18 2016-02-16 10:25:40

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#19 2016-02-17 10:31:34

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

#20 2016-02-17 10:57:38

Re : [Question PHP] Modifier html à la volée avec Simple HTML DOM

Pied de page des forums