Я пытаюсь разобрать некоторые HTML, который включает в себя некоторые HTML сущности, как ×DomDocument и HTML сущности
$str = '<a href="http://example.com/"> A × B</a>';
$dom = new DomDocument;
$dom -> substituteEntities = false;
$dom ->loadHTML($str);
$link = $dom ->getElementsByTagName('a') -> item(0);
$fullname = $link -> nodeValue;
$href = $link -> getAttribute('href');
echo "
fullname: $fullname \n
href: $href\n";
но DomDocument заменяет текст для A a- B.
есть какой-то способ чтобы он не принимал & для объекта html и не оставлял его в покое? Я попытался установить substituteEntities на false, но ничего не сделал
Почему вы хотите их оставить? – Gordon
Я только * своего рода * хочу, что я на самом деле хочу сделать, это заменить их на x, потому что это поместило бы текст в том же формате, что и старый код из скребка, который я обновляю, и у меня абсолютно нет идея о том, как я буду включать эти символы в регулярное выражение – rafa