extract title tag from html

Я хочу извлечь содержимое тега title из строки html. Я сделал поиск, но до сих пор я не могу найти такой код в VB/C# или PHP. Также это должно работать как с верхним, так и с нижним регистром, например. должен работать как с <title></title>, так и с < TITLE></TITLE>. Спасибо.extract title tag from html

источник

2009-04-04 Anonymous

HTML не является, в общем, хорошо сформированным. Поэтому любое решение будет иметь ошибки. Какие случаи ошибок приемлемы для вас? –

Я думаю, что он должен игнорировать случай и отсутствовать тег заголовка из документа. Возможно, наилучшим образом это должна быть функция, возвращающая значение заголовка строки или пустую строку, если отсутствует метка ошибки или заголовка. – 2009-04-05 17:26:07

Звучит как работа для регулярного выражения. Это будет зависеть от корректности HTML-кода, т. Е. Только элемент заголовка внутри элемента head.

Regex regex = new Regex(".*<head>.*<title>(.*)</title>.*</head>.*", 
          RegexOptions.IgnoreCase); 
Match match = regex.Match(html); 
string title = match.Groups[0].Value;

У меня нет моей регулярки шпаргалки передо мной, так что, возможно, потребуется немного настройки. Обратите внимание, что в случае, если элемент заголовка не существует, проверка ошибок также отсутствует.

источник

2009-04-04 13:51:20 tvanfosson

«Звучит как работа для ... Более-регулярного выражения!» Разработчик днем, супергерой ночью;) – Piskvor

RE: «Хорошо сформированный» - вам не нужно помещать элемент '' в качестве дочернего элемента '<head>' в HTML 4.01. Я только указываю на это как пример того, почему использование regex & HTML обычно приводит к разочарованию. Смотрите: http://shawn.medero.net/demos/valid-html4/ – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/26512/">soypunk</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">Даже хуже, чем сойканг правильно указывает, существует много полезных HTML-файлов с недопустимым заголовком. например <tiTlE> a <boDy> b Вам действительно нужно использовать парсер HTML, если вы собираетесь обрабатывать HTML в реальном мире. – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/42585/">Alohci</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4319274062" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">7<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>Вы можете использовать регулярные выражения для этого, но это не является полностью защищенным от ошибок. Это будет делать, если вы просто хотите что-то простое, хотя (в PHP):</p> <pre><code class="prettyprint-override">function get_title($html) { return preg_match('!<title>(.*?)</title>!i', $html, $matches) ? $matches[1] : ''; } </code></pre> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/717126">источник</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2009-04-04 13:52:04</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/18393/">cletus</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div>  <div class="comments"> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">Похоже, что эта функция чувствительна к регистру, эта функция не извлекает заголовок, если она в верхнем регистре, можете ли вы изменить эту функцию, чтобы игнорировать случай? – <span class="text-secondary"> <small> <span>2009-04-05 17:35:41</span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">Флаг «i» после шаблона делает регистр нечувствительным к регистру. – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/18393/">cletus</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">0<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>Если есть атрибут в тег заголовка (что маловероятно, но может случиться), вам необходимо обновить выражение следующим образом:</p> <pre><code class="prettyprint-override">$title = preg_match('!<title.*>(.*?)</title>!i', $url_content, $matches) ? $matches[1] : ''; </code></pre> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/19807853">источник</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2013-11-06 09:08:47</span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">Смежные вопросы</div> <ul class="relative_list"> <li> 1. <a href="http://ru.voidcc.com/question/p-vtiwtmsx-xn.html" target="_blank" title="Extract hash tag from String"> Extract hash tag from String </a> </li> <li> 2. <a href="http://ru.voidcc.com/question/p-nikhvprk-bqo.html" target="_blank" title="title tag html edit"> title tag html edit </a> </li> <li> 3. <a href="http://ru.voidcc.com/question/p-pgkuxjpq-ke.html" target="_blank" title="jquery, extract number value from name tag"> jquery, extract number value from name tag </a> </li> <li> 4. <a href="http://ru.voidcc.com/question/p-ngjjzypq-bby.html" target="_blank" title="Jsoup - extract html from element"> Jsoup - extract html from element </a> </li> <li> 5. <a href="http://ru.voidcc.com/question/p-bqluhciv-bkh.html" target="_blank" title="anchor tag HREF extract"> anchor tag HREF extract </a> </li> <li> 6. <a href="http://ru.voidcc.com/question/p-zkuyvzas-hx.html" target="_blank" title="jQuery scrolling marquee in html title title tag"> jQuery scrolling marquee in html title title tag </a> </li> <li> 7. <a href="http://ru.voidcc.com/question/p-mewepyhd-vn.html" target="_blank" title="Render html tag from string"> Render html tag from string </a> </li> <li> 8. <a href="http://ru.voidcc.com/question/p-xhagnixh-qu.html" target="_blank" title="Wordpress title-tag"> Wordpress title-tag </a> </li> <li> 9. <a href="http://ru.voidcc.com/question/p-ochskdfu-bon.html" target="_blank" title="javascript change anchor tag title value from PHP Echo"> javascript change anchor tag title value from PHP Echo </a> </li> <li> 10. <a href="http://ru.voidcc.com/question/p-qqrrcyiy-ww.html" target="_blank" title="ID3 tag extract"> ID3 tag extract </a> </li> <li> 11. <a href="http://ru.voidcc.com/question/p-frszqnpa-bnw.html" target="_blank" title="Wordpress title-tag function"> Wordpress title-tag function </a> </li> <li> 12. <a href="http://ru.voidcc.com/question/p-niotyvxl-ve.html" target="_blank" title="ImageButton title tag"> ImageButton title tag </a> </li> <li> 13. <a href="http://ru.voidcc.com/question/p-aiqjypvv-q.html" target="_blank" title="extract xml from xml embebed in html"> extract xml from xml embebed in html </a> </li> <li> 14. <a href="http://ru.voidcc.com/question/p-gzuyfoqd-ge.html" target="_blank" title="Sed extract link from html page"> Sed extract link from html page </a> </li> <li> 15. <a href="http://ru.voidcc.com/question/p-sfawkxlu-bet.html" target="_blank" title="extract AJAX from file"> extract AJAX from file </a> </li> <li> 16. <a href="http://ru.voidcc.com/question/p-wxqojgcb-beu.html" target="_blank" title="Joomla 2.5 change html title from view.html.php"> Joomla 2.5 change html title from view.html.php </a> </li> <li> 17. <a href="http://ru.voidcc.com/question/p-ctgzczqc-vt.html" target="_blank" title="extract title xpath, если присутствует код xpath"> extract title xpath, если присутствует код xpath </a> </li> <li> 18. <a href="http://ru.voidcc.com/question/p-tfzreijo-bqm.html" target="_blank" title="img tag в атрибуте title"> img tag в атрибуте title </a> </li> <li> 19. <a href="http://ru.voidcc.com/question/p-rhzkxvhz-pz.html" target="_blank" title="extract string from url"> extract string from url </a> </li> <li> 20. <a href="http://ru.voidcc.com/question/p-mtajlgqq-bdg.html" target="_blank" title="extract uuid from url"> extract uuid from url </a> </li> <li> 21. <a href="http://ru.voidcc.com/question/p-tvfiqrtx-bv.html" target="_blank" title="extract filename from path"> extract filename from path </a> </li> <li> 22. <a href="http://ru.voidcc.com/question/p-drjaqzia-bqw.html" target="_blank" title="extract image from image"> extract image from image </a> </li> <li> 23. <a href="http://ru.voidcc.com/question/p-wkxdfhek-bcv.html" target="_blank" title="extract subset from data.frame"> extract subset from data.frame </a> </li> <li> 24. <a href="http://ru.voidcc.com/question/p-hfwrxuju-xd.html" target="_blank" title="extract month from mysql"> extract month from mysql </a> </li> <li> 25. <a href="http://ru.voidcc.com/question/p-qbzrjcxx-beo.html" target="_blank" title="Удалить Title from DatePickerDialog"> Удалить Title from DatePickerDialog </a> </li> <li> 26. <a href="http://ru.voidcc.com/question/p-epdxinft-th.html" target="_blank" title="Ipad show title-Tag изображения"> Ipad show title-Tag изображения </a> </li> <li> 27. <a href="http://ru.voidcc.com/question/p-xljbyfjp-bcg.html" target="_blank" title="Jsoup clean title tag failure"> Jsoup clean title tag failure </a> </li> <li> 28. <a href="http://ru.voidcc.com/question/p-nfadexgq-boy.html" target="_blank" title="Extract Title + ссылки с домашней страницы"> Extract Title + ссылки с домашней страницы </a> </li> <li> 29. <a href="http://ru.voidcc.com/question/p-twwckdnb-yo.html" target="_blank" title="атрибут «title» для <html: options> struts tag"> атрибут «title» для <html: options> struts tag </a> </li> <li> 30. <a href="http://ru.voidcc.com/question/p-unjwhbpa-bsh.html" target="_blank" title="Id from anchor tag"> Id from anchor tag </a> </li> </ul> </div> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3534119089"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img2.voidcc.com/voidso/script/side.js?t=1652515422009"></script> <script type="text/javascript" src="http://img2.voidcc.com/voidso/plugin/highlight/highlight.pack.js"></script> <link href="http://img2.voidcc.com/voidso/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>  <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3862022848" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> Последний вопрос </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ru.voidcc.com/question/p-chmzspqe-qg.html" target="_blank" title="Могу ли я улучшить производительность чтения HBase, используя Redis в качестве кеша?"> Могу ли я улучшить производительность чтения HBase, используя Redis в качестве кеша? </a> </li> <li class="side_article_list_item"> 2. <a href="http://ru.voidcc.com/question/p-oicdumsc-ne.html" target="_blank" title="Aurelia отправка одной посылкой не удается при использовании относительного пути импорта"> Aurelia отправка одной посылкой не удается при использовании относительного пути импорта </a> </li> <li class="side_article_list_item"> 3. <a href="http://ru.voidcc.com/question/p-fbayzjir-nq.html" target="_blank" title="Получить последнее местоположение нескольких пользователей?"> Получить последнее местоположение нескольких пользователей? </a> </li> <li class="side_article_list_item"> 4. <a href="http://ru.voidcc.com/question/p-wbwzqrcf-nx.html" target="_blank" title="Как получить данные в том же порядке, что и подзапрос?"> Как получить данные в том же порядке, что и подзапрос? </a> </li> <li class="side_article_list_item"> 5. <a href="http://ru.voidcc.com/question/p-wuktixft-or.html" target="_blank" title="RequireJS - Экспорт набора функций"> RequireJS - Экспорт набора функций </a> </li> <li class="side_article_list_item"> 6. <a href="http://ru.voidcc.com/question/p-skecsiwj-kc.html" target="_blank" title="Py2Exe openpyxl importerror"> Py2Exe openpyxl importerror </a> </li> <li class="side_article_list_item"> 7. <a href="http://ru.voidcc.com/question/p-vwgnuhza-hm.html" target="_blank" title="Как проверить, содержит ли строка только особые символы с использованием regex"> Как проверить, содержит ли строка только особые символы с использованием regex </a> </li> <li class="side_article_list_item"> 8. <a href="http://ru.voidcc.com/question/p-nntdynyi-ht.html" target="_blank" title="Android-путь к файлу из URI return null"> Android-путь к файлу из URI return null </a> </li> <li class="side_article_list_item"> 9. <a href="http://ru.voidcc.com/question/p-rtqljglm-eu.html" target="_blank" title="Почему не удается получить аннотацию из beanClass?"> Почему не удается получить аннотацию из beanClass? </a> </li> <li class="side_article_list_item"> 10. <a href="http://ru.voidcc.com/question/p-nvupssyu-gn.html" target="_blank" title="Поместите кнопку на каждую динамически сгенерированную таблицу начальной загрузки"> Поместите кнопку на каждую динамически сгенерированную таблицу начальной загрузки </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> Смежные вопросы</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ru.voidcc.com/question/p-vtiwtmsx-xn.html" target="_blank" title="Extract hash tag from String"> Extract hash tag from String </a> </li> <li class="side_article_list_item"> 2. <a href="http://ru.voidcc.com/question/p-nikhvprk-bqo.html" target="_blank" title="title tag html edit"> title tag html edit </a> </li> <li class="side_article_list_item"> 3. <a href="http://ru.voidcc.com/question/p-pgkuxjpq-ke.html" target="_blank" title="jquery, extract number value from name tag"> jquery, extract number value from name tag </a> </li> <li class="side_article_list_item"> 4. <a href="http://ru.voidcc.com/question/p-ngjjzypq-bby.html" target="_blank" title="Jsoup - extract html from element"> Jsoup - extract html from element </a> </li> <li class="side_article_list_item"> 5. <a href="http://ru.voidcc.com/question/p-bqluhciv-bkh.html" target="_blank" title="anchor tag HREF extract"> anchor tag HREF extract </a> </li> <li class="side_article_list_item"> 6. <a href="http://ru.voidcc.com/question/p-zkuyvzas-hx.html" target="_blank" title="jQuery scrolling marquee in html title title tag"> jQuery scrolling marquee in html title title tag </a> </li> <li class="side_article_list_item"> 7. <a href="http://ru.voidcc.com/question/p-mewepyhd-vn.html" target="_blank" title="Render html tag from string"> Render html tag from string </a> </li> <li class="side_article_list_item"> 8. <a href="http://ru.voidcc.com/question/p-xhagnixh-qu.html" target="_blank" title="Wordpress title-tag"> Wordpress title-tag </a> </li> <li class="side_article_list_item"> 9. <a href="http://ru.voidcc.com/question/p-ochskdfu-bon.html" target="_blank" title="javascript change anchor tag title value from PHP Echo"> javascript change anchor tag title value from PHP Echo </a> </li> <li class="side_article_list_item"> 10. <a href="http://ru.voidcc.com/question/p-qqrrcyiy-ww.html" target="_blank" title="ID3 tag extract"> ID3 tag extract </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div>  <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ru.voidcc.com/contact">Свяжитесь с нами</a></li> <li>© 2020 RU.VOIDCC.COM</li> <li><a rel="nofollow" href="https://beian.miit.gov.cn/" target="_blank">沪ICP备13005482号-13</a></li> <li><script type="text/javascript" src="https://s9.cnzz.com/z_stat.php?id=1280098168&web_id=1280098168"></script></li> <li><a href="http://cn.voidcc.com/" target="_blank" title="程序问答园区">简体中文</a></li> <li><a href="http://hk.voidcc.com/" target="_blank" title="程序問答園區">繁體中文</a></li> <li><a href="http://ru.voidcc.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.voidcc.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.voidcc.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.voidcc.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.voidcc.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.voidcc.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.voidcc.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.voidcc.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.voidcc.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.voidcc.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.voidcc.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer>  <script async src="https://www.googletagmanager.com/gtag/js?id=UA-77509369-5"></script> <script> window.dataLayer = window.dataLayer || []; function gtag() { dataLayer.push(arguments); } gtag('js', new Date()); gtag('config', 'UA-77509369-5'); </script> <script> var _hmt = _hmt || []; (function () { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?67d4731349f0b00136755b80364ce381"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>