2014-12-09 6 views
1

Я хотел бы сканировать содержимое IFrame (динамический контент) веб-страницы;Crawl IFrame содержимое страницы с использованием java

Но на данный момент нет сканеров (пробовали с диафрагмой, Crawl4j) поддерживать это; Результат, который я получаю


 <iframe id="template_content_frame" src="/ee/mypage/default.htm" width="100%" frameborder="0" name="content_frame"> 
     </iframe> 

Так началось с Crawljax. Поддерживает ли это сканирование содержимого IFrame? Я подошел к этому issue; Похоже, что указанная выше проблема Закрыта не исправлена ​​, поэтому у меня возникло сомнение в том, что Crawljax поддерживает это или нет;

Сделайте это, попробовав это раньше, или имеете какое-либо новое решение для обхода динамического контента, такого как IFrame?

ответ

1

Norconex HTTP Collector - это поисковый робот с открытым исходным кодом, который поддерживает сканирование frame и iframe тегов из коробки. Вы также можете добавить свой собственный набор тегов, которые будут использоваться для извлечения URL-адресов (например, frame.longdesc, video.src, form.action и т. Д.). Вам не нужны навыки программирования для использования этого искателя, но, поскольку вы, кажется, знаете свою Java, вы также можете подключить свою собственную логику извлечения URL-адресов, если хотите.

Как только вы познакомитесь с этим искателем, я предлагаю вам найти класс HtmlLinkExtractor в онлайн-javadoc для получения дополнительных возможностей для извлечения URL-адресов.

+0

Hi Pascal. i Tried Norconex Http Collector. Проект Just Executed Maven Не удалось выполнить цель org.codehaus.mojo: exec-maven-plugin: 1.2.1: exec (default-cli) в проекте norconex-collector-http: Выполнение команды не выполнено. Процесс завершен с ошибкой: -1 – BasK

+0

Привет, Бас. Можете ли вы описать, какая полная команда вы использовали? Вы пытаетесь его построить или запустить? Чтобы запустить его, запустите его из командной строки, используя описанный здесь подход: http://www.norconex.com/collectors/collector-http/getting-started Чтобы запустить его из своей среды разработки, запустите com.norconex. collector.http.HttpCollector с соответствующими аргументами командной строки тоже работает. –

Смежные вопросы