2012-04-26 2 views
2

У меня есть часть HTML, которую я хотел бы проанализировать с помощью Nokogiri, но я не знаю, является ли это полным HTML-документом (с DOCTYPE и т. Д.) Или фрагментом (например, просто div с некоторыми элементами в нем).Позволяя Nokogiri решить, использовать ли #фрагмент или #parse

Это имеет значение для Nokogiri, поскольку для фрагментации фрагментов следует использовать #фрагмент, но #parse для синтаксического анализа полных документов.

Есть ли способ определить, является ли данный фрагмент текста фрагментом или полным HTML-документом?

Денис

+0

Есть веские причины использовать синтаксический анализ в любом случае. Он просто построит документ с вашим html, и вы сможете использовать xpath проще. – pguardiario

ответ

0

Самый простой способ будет искать обязательный <html> тега, используя, например, регулярное выражение, /<html[\s>])/ (позволяют атрибуты).

Этого достаточно, чтобы решить вашу проблему?

+1

Обратите внимание, что тег '' не требуется в HTML5. Например, см. Http://mathiasbynens.be/notes/minimal-html. Теги '' или '<body>' могут быть более подходящими. – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/405017/">Phrogz</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+1</span></div> <div class="col-lg-11"> <p class="commenttext">В соответствии с указанной статьей тег заголовка также не требуется, и ни один из них не является телом. – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">Нет, но случай, когда тег '<title>' не требуется, крайне маловероятен, а тег '<body>' может быть опущен только тогда, когда нет содержимого тела (другая маловероятная ситуация). – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/405017/">Phrogz</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4319274062" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">2<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>Зависит от того, как громил ваша страница, но</p> <pre><code class="prettyprint-override">/^(?:\s*<!DOCTYPE)|(?:\s*<html)/ </code></pre> <p>должны работать в большинстве случаев.</p> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/10329847">источник</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2012-04-26 08:35:28</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/411944/">Reactormonk</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">Смежные вопросы</div> <ul class="relative_list"> <li> 1. <a href="http://ru.voidcc.com/question/p-fnxptnqo-yu.html" target="_blank" title="parse email using nokogiri"> parse email using nokogiri </a> </li> <li> 2. <a href="http://ru.voidcc.com/question/p-eqrntfqr-ep.html" target="_blank" title="Позволяя объекту решить свой класс"> Позволяя объекту решить свой класс </a> </li> <li> 3. <a href="http://ru.voidcc.com/question/p-gzrfxjbg-bgz.html" target="_blank" title="Nokogiri parse ajax-загруженный контент"> Nokogiri parse ajax-загруженный контент </a> </li> <li> 4. <a href="http://ru.voidcc.com/question/p-dmsuwtns-tp.html" target="_blank" title="Scala: Parse HTML-фрагмент"> Scala: Parse HTML-фрагмент </a> </li> <li> 5. <a href="http://ru.voidcc.com/question/p-ahhlsjqv-bcq.html" target="_blank" title="Как решить, использовать ли гиперпоточность или нет?"> Как решить, использовать ли гиперпоточность или нет? </a> </li> <li> 6. <a href="http://ru.voidcc.com/question/p-wykqmkxq-bpo.html" target="_blank" title="Parse Faraday Response body как объект Nokogiri"> Parse Faraday Response body как объект Nokogiri </a> </li> <li> 7. <a href="http://ru.voidcc.com/question/p-wypumfwv-bdy.html" target="_blank" title="Можно ли использовать Ruby Mechanize без Nokogiri?"> Можно ли использовать Ruby Mechanize без Nokogiri? </a> </li> <li> 8. <a href="http://ru.voidcc.com/question/p-xsjcabpk-bpv.html" target="_blank" title="Parse Содержание не в html-тегах Nokogiri"> Parse Содержание не в html-тегах Nokogiri </a> </li> <li> 9. <a href="http://ru.voidcc.com/question/p-ywxszoex-bdq.html" target="_blank" title="Фрагмент или фрагмент поддержки?"> Фрагмент или фрагмент поддержки? </a> </li> <li> 10. <a href="http://ru.voidcc.com/question/p-drkiwnej-da.html" target="_blank" title="Nokogiri xpath() 'или' оператор?"> Nokogiri xpath() 'или' оператор? </a> </li> <li> 11. <a href="http://ru.voidcc.com/question/p-rxczipxt-mk.html" target="_blank" title="Может ли Nokogiri использовать парсер SAX для анализа фрагмента HTML?"> Может ли Nokogiri использовать парсер SAX для анализа фрагмента HTML? </a> </li> <li> 12. <a href="http://ru.voidcc.com/question/p-mdukfxoj-gc.html" target="_blank" title="Как решить, следует ли использовать LINQ к SQL или ADO.NET"> Как решить, следует ли использовать LINQ к SQL или ADO.NET </a> </li> <li> 13. <a href="http://ru.voidcc.com/question/p-rglgwdiq-hz.html" target="_blank" title="В Реагировании, как решить, использовать ли компоненты componentWillReceiveProps или componentWillMount?"> В Реагировании, как решить, использовать ли компоненты componentWillReceiveProps или componentWillMount? </a> </li> <li> 14. <a href="http://ru.voidcc.com/question/p-btbxhdxo-rk.html" target="_blank" title="Как решить, следует ли использовать newCachedThreadPool или newFixedThreadPool?"> Как решить, следует ли использовать newCachedThreadPool или newFixedThreadPool? </a> </li> <li> 15. <a href="http://ru.voidcc.com/question/p-ahssdwna-bgy.html" target="_blank" title="Как решить, использовать ли СУБД, Doc/Obj ODBMS или Graph?"> Как решить, использовать ли СУБД, Doc/Obj ODBMS или Graph? </a> </li> <li> 16. <a href="http://ru.voidcc.com/question/p-zllovvhv-brz.html" target="_blank" title="Как решить, использовать ли свойство или метод в классе"> Как решить, использовать ли свойство или метод в классе </a> </li> <li> 17. <a href="http://ru.voidcc.com/question/p-mkyrnrqp-bnz.html" target="_blank" title="Как решить, когда использовать XSD или DTD?"> Как решить, когда использовать XSD или DTD? </a> </li> <li> 18. <a href="http://ru.voidcc.com/question/p-fhujcegy-bdt.html" target="_blank" title="Является ли этот синтаксис указателем на фрагмент или фрагмент указателей?"> Является ли этот синтаксис указателем на фрагмент или фрагмент указателей? </a> </li> <li> 19. <a href="http://ru.voidcc.com/question/p-pyhllnjq-ea.html" target="_blank" title="Нужна ли Nokogiri для Rails?"> Нужна ли Nokogiri для Rails? </a> </li> <li> 20. <a href="http://ru.voidcc.com/question/p-dchajfjx-dx.html" target="_blank" title="PHP-эквивалент PyQuery или Nokogiri?"> PHP-эквивалент PyQuery или Nokogiri? </a> </li> <li> 21. <a href="http://ru.voidcc.com/question/p-fcsbuwec-rx.html" target="_blank" title="создать шаблон erb или использовать nokogiri для генерации xml-файлов?"> создать шаблон erb или использовать nokogiri для генерации xml-файлов? </a> </li> <li> 22. <a href="http://ru.voidcc.com/question/p-gkfqgtgx-bqn.html" target="_blank" title="Как решить, когда использовать ngView или ngInclude?"> Как решить, когда использовать ngView или ngInclude? </a> </li> <li> 23. <a href="http://ru.voidcc.com/question/p-rdhsoyfm-pz.html" target="_blank" title="Как использовать noblanks Nokogiri в"> Как использовать noblanks Nokogiri в </a> </li> <li> 24. <a href="http://ru.voidcc.com/question/p-dsupqceo-uw.html" target="_blank" title="Фрагмент или MapView?"> Фрагмент или MapView? </a> </li> <li> 25. <a href="http://ru.voidcc.com/question/p-evmomtwg-yh.html" target="_blank" title="Деятельность или фрагмент или?"> Деятельность или фрагмент или? </a> </li> <li> 26. <a href="http://ru.voidcc.com/question/p-dcxlyhjo-bsb.html" target="_blank" title="Деятельность или фрагмент?"> Деятельность или фрагмент? </a> </li> <li> 27. <a href="http://ru.voidcc.com/question/p-pdiujwdn-we.html" target="_blank" title="Как использовать Nokogiri в irb?"> Как использовать Nokogiri в irb? </a> </li> <li> 28. <a href="http://ru.voidcc.com/question/p-rtehmsuy-bgy.html" target="_blank" title="Как использовать SAX с Nokogiri?"> Как использовать SAX с Nokogiri? </a> </li> <li> 29. <a href="http://ru.voidcc.com/question/p-ziypftul-bax.html" target="_blank" title="Фрагмент или активность?"> Фрагмент или активность? </a> </li> <li> 30. <a href="http://ru.voidcc.com/question/p-ulijscah-bs.html" target="_blank" title="Невозможно решить метод add (int, фрагмент)"> Невозможно решить метод add (int, фрагмент) </a> </li> </ul> </div> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3534119089"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img2.voidcc.com/voidso/script/side.js?t=1652515422009"></script> <script type="text/javascript" src="http://img2.voidcc.com/voidso/plugin/highlight/highlight.pack.js"></script> <link href="http://img2.voidcc.com/voidso/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <!-- VOIDCC问答侧边栏广告 --> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3862022848" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> Последний вопрос </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ru.voidcc.com/question/p-vyfepcyu-nx.html" target="_blank" title="Отключить/включить перехватчик во время выполнения"> Отключить/включить перехватчик во время выполнения </a> </li> <li class="side_article_list_item"> 2. <a href="http://ru.voidcc.com/question/p-eolenjxw-mx.html" target="_blank" title="Угловой 2 «Невозможно сопоставить любые маршруты» по именованной розетке"> Угловой 2 «Невозможно сопоставить любые маршруты» по именованной розетке </a> </li> <li class="side_article_list_item"> 3. <a href="http://ru.voidcc.com/question/p-fmakmlcx-mg.html" target="_blank" title="Чтение почты SMTP в одной строке"> Чтение почты SMTP в одной строке </a> </li> <li class="side_article_list_item"> 4. <a href="http://ru.voidcc.com/question/p-qbnfmlkp-kc.html" target="_blank" title="Сортировка столбцов таблицы на основе значения NULL"> Сортировка столбцов таблицы на основе значения NULL </a> </li> <li class="side_article_list_item"> 5. <a href="http://ru.voidcc.com/question/p-vdkpmjxt-ht.html" target="_blank" title="Как установить цвет Backgroud панели в transperent"> Как установить цвет Backgroud панели в transperent </a> </li> <li class="side_article_list_item"> 6. <a href="http://ru.voidcc.com/question/p-ejkdpqvu-eu.html" target="_blank" title="Не удается получить доступ к контроллеру angularjs"> Не удается получить доступ к контроллеру angularjs </a> </li> <li class="side_article_list_item"> 7. <a href="http://ru.voidcc.com/question/p-dahqgqap-gn.html" target="_blank" title="Как я могу вставить свои данные PHP с несколькими aray"> Как я могу вставить свои данные PHP с несколькими aray </a> </li> <li class="side_article_list_item"> 8. <a href="http://ru.voidcc.com/question/p-kqvvocui-ca.html" target="_blank" title="Как перетащить UITableView, который может автоматически расширяться, чтобы заполнить весь экран в Xcode 8.2.1"> Как перетащить UITableView, который может автоматически расширяться, чтобы заполнить весь экран в Xcode 8.2.1 </a> </li> <li class="side_article_list_item"> 9. <a href="http://ru.voidcc.com/question/p-hweojiiq-dv.html" target="_blank" title="AppCode не может работать на симуляторе и устройстве"> AppCode не может работать на симуляторе и устройстве </a> </li> <li class="side_article_list_item"> 10. <a href="http://ru.voidcc.com/question/p-tzfnpkcg-bu.html" target="_blank" title="триггер Page_Load управления меню из iframe страницы"> триггер Page_Load управления меню из iframe страницы </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> Смежные вопросы</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ru.voidcc.com/question/p-fnxptnqo-yu.html" target="_blank" title="parse email using nokogiri"> parse email using nokogiri </a> </li> <li class="side_article_list_item"> 2. <a href="http://ru.voidcc.com/question/p-eqrntfqr-ep.html" target="_blank" title="Позволяя объекту решить свой класс"> Позволяя объекту решить свой класс </a> </li> <li class="side_article_list_item"> 3. <a href="http://ru.voidcc.com/question/p-gzrfxjbg-bgz.html" target="_blank" title="Nokogiri parse ajax-загруженный контент"> Nokogiri parse ajax-загруженный контент </a> </li> <li class="side_article_list_item"> 4. <a href="http://ru.voidcc.com/question/p-dmsuwtns-tp.html" target="_blank" title="Scala: Parse HTML-фрагмент"> Scala: Parse HTML-фрагмент </a> </li> <li class="side_article_list_item"> 5. <a href="http://ru.voidcc.com/question/p-ahhlsjqv-bcq.html" target="_blank" title="Как решить, использовать ли гиперпоточность или нет?"> Как решить, использовать ли гиперпоточность или нет? </a> </li> <li class="side_article_list_item"> 6. <a href="http://ru.voidcc.com/question/p-wykqmkxq-bpo.html" target="_blank" title="Parse Faraday Response body как объект Nokogiri"> Parse Faraday Response body как объект Nokogiri </a> </li> <li class="side_article_list_item"> 7. <a href="http://ru.voidcc.com/question/p-wypumfwv-bdy.html" target="_blank" title="Можно ли использовать Ruby Mechanize без Nokogiri?"> Можно ли использовать Ruby Mechanize без Nokogiri? </a> </li> <li class="side_article_list_item"> 8. <a href="http://ru.voidcc.com/question/p-xsjcabpk-bpv.html" target="_blank" title="Parse Содержание не в html-тегах Nokogiri"> Parse Содержание не в html-тегах Nokogiri </a> </li> <li class="side_article_list_item"> 9. <a href="http://ru.voidcc.com/question/p-ywxszoex-bdq.html" target="_blank" title="Фрагмент или фрагмент поддержки?"> Фрагмент или фрагмент поддержки? </a> </li> <li class="side_article_list_item"> 10. <a href="http://ru.voidcc.com/question/p-drkiwnej-da.html" target="_blank" title="Nokogiri xpath() 'или' оператор?"> Nokogiri xpath() 'или' оператор? </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ru.voidcc.com/contact">Свяжитесь с нами</a></li> <li>© 2020 RU.VOIDCC.COM</li> <li><a rel="nofollow" href="https://beian.miit.gov.cn/" target="_blank">沪ICP备13005482号-13</a></li> <li><script type="text/javascript" src="https://s9.cnzz.com/z_stat.php?id=1280098168&web_id=1280098168"></script></li> <li><a href="http://cn.voidcc.com/" target="_blank" title="程序问答园区">简体中文</a></li> <li><a href="http://hk.voidcc.com/" target="_blank" title="程序問答園區">繁體中文</a></li> <li><a href="http://ru.voidcc.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.voidcc.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.voidcc.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.voidcc.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.voidcc.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.voidcc.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.voidcc.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.voidcc.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.voidcc.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.voidcc.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.voidcc.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script async src="https://www.googletagmanager.com/gtag/js?id=UA-77509369-5"></script> <script> window.dataLayer = window.dataLayer || []; function gtag() { dataLayer.push(arguments); } gtag('js', new Date()); gtag('config', 'UA-77509369-5'); </script> <script> var _hmt = _hmt || []; (function () { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?67d4731349f0b00136755b80364ce381"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>