Я хотел бы сканировать содержимое IFrame (динамический контент) веб-страницы;Crawl IFrame содержимое страницы с использованием java
Но на данный момент нет сканеров (пробовали с диафрагмой, Crawl4j) поддерживать это; Результат, который я получаю
<iframe id="template_content_frame" src="/ee/mypage/default.htm" width="100%" frameborder="0" name="content_frame">
</iframe>
Так началось с Crawljax. Поддерживает ли это сканирование содержимого IFrame? Я подошел к этому issue; Похоже, что указанная выше проблема Закрыта не исправлена , поэтому у меня возникло сомнение в том, что Crawljax поддерживает это или нет;
Сделайте это, попробовав это раньше, или имеете какое-либо новое решение для обхода динамического контента, такого как IFrame?
Hi Pascal. i Tried Norconex Http Collector. Проект Just Executed Maven Не удалось выполнить цель org.codehaus.mojo: exec-maven-plugin: 1.2.1: exec (default-cli) в проекте norconex-collector-http: Выполнение команды не выполнено. Процесс завершен с ошибкой: -1 – BasK
Привет, Бас. Можете ли вы описать, какая полная команда вы использовали? Вы пытаетесь его построить или запустить? Чтобы запустить его, запустите его из командной строки, используя описанный здесь подход: http://www.norconex.com/collectors/collector-http/getting-started Чтобы запустить его из своей среды разработки, запустите com.norconex. collector.http.HttpCollector с соответствующими аргументами командной строки тоже работает. –