2011-12-31 2 views
0

У меня есть образец текста, как это:Как удалить доменное имя в тексте с помощью preg_replace PHP

Nytimes.com Одна из самых больших порталов новостей, есть много содержимого внутри. Несколько поисковых систем, таких как www.Google.com, www.yahoo.com и yandex.ru, отправляют своих гусениц на эти сайты. Это также Bing.comremoved

Поэтому я хочу использовать регулярное выражение preg_replace, чтобы удалить весь домен внутри. Результаты должны быть следующими:

Один из крупнейших новостных порталов, внутри которого есть много содержания. Несколько поисковых систем и отправить их искатель на эти сайты. Это также удалены

Это мой провал эксперимент:

$new_text = preg_replace('/s(.*?)\.(?:aero|asia|biz|cat|com|coop|edu|gov|info|int|jobs|mil|mobi|museum|name|net|org|pro|tel|travel|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cu|cv|cx|cy|cz|cz|de|dj|dk|dm|do|dz|ec|ee|eg|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mn|mn|mo|mp|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|nom|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ra|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|sj|sk|sl|sm|sn|so|sr|st|su|sv|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw|arpa)/', '', $text); 

Любое решение, чтобы решить эту проблему?

+0

Регулярное выражение '/ (? [A-Za-z0-9] +) \ (се | ком) /' делает немного лучше по крайней мере, то '. *? 'совпадает со способом, поскольку доменные имена не могут содержать 0 символов или специальные символы. – lfxgroove

ответ

0

Что-то, как это должно помочь вам:

/([wW]{3,3}\.|)[A-Za-z0-9]+?\.(se|com|ru)/ 

заменить последний SE | ком | ру, что вам нужно вместо этого. Хотя после этого у вас будет что-то вроде этого:

Один из крупнейших новостных порталов, внутри которого много содержания. Несколько поисковых систем, как и отправить их искатель на эти сайты. Это также удалено

Чтобы удалить пространство в начале вы могли бы сделать trim($str) и для других пространств регулярного выражения, которое выглядит как-то preg_replace('/\s+/', ' ', $str); должны помочь вам.

+0

Спасибо, Антон, все работает! Кроме того, отлично подходит для регулярных выражений и других пространств. – yodi

0
<?php 

$patterrn='/([wW]{3,3}\.|)[A-Za-z0-9]+?\.(aero|asia|biz|cat|com|coop|edu|gov|info|int|jobs|mil|mobi|museum|name|net|org|pro|tel|travel|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cu|cv|cx|cy|cz|cz|de|dj|dk|dm|do|dz|ec|ee|eg|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mn|mn|mo|mp|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|nom|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ra|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|sj|sk|sl|sm|sn|so|sr|st|su|sv|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw|arpa)/'; 
$text="Nytimes.com One of the biggest news portals, have a lot of contents inside. Several search engine like www.Google.com, www.yahoo.com and yandex.ru send their crawler to this sites. This also Bing.comremoved"; 
$output = preg_replace($patterrn,"",$text); 
print_r($output); 

?> 

Выход:.

One of the biggest news portals, have a lot of contents inside. Several search engine like , and send their crawler to this sites. This also removed 
+0

Я выбираю anton как решение, потому что он пришел первым. Ваш ответ более подробно и понятен для людей, которые пришли сюда. Спасибо, в любом случае! – yodi