Для подхода с регулярным выражением вам нужен модификатор u
. Полный список модификаторов PHP см. В http://php.net/manual/en/reference.pcre.pattern.modifiers.php, i
и s
, которые вы используете в настоящее время, - это 2 других модификатора.
preg_match("#<div id=[\"']faktaDiv[\"']>(.*?)</div>#siu", $webside, $a2);
Похоже, что вы разбираете HTML, хотя я бы использовал domdocument для разбора этой строки.
$doc = new DOMDocument();
$doc->loadHTML('<div id="faktaDiv">Test Stuff</div>');
$divs = $doc->getElementsByTagName('div');
foreach($divs as $div) {
if($div->getAttribute('id') == 'faktaDiv') {
echo $div->nodeValue;
}
}
Чтобы вытащить title
вы должны использовать анализатор, как это.
$doc = new DOMDocument();
$doc->loadHTML('<title>Test Stuff</title>');
$title = $doc->getElementsByTagName('title')->item(0)->nodeValue;
echo $title;
Насколько я знаю, что должен быть только один title
одна страница. Если это не так, удалите ->item(0)->nodeValue
и пройдите через массив.
PHP Демо: https://eval.in/502432
@ chris85 - как это сделать? Да, файл UTF-8 – Morten
#