Лучшее решение в настоящее время является использование данных Crawler, доступных на приборной панели Discovery Service в Bluemix.
Data Crawler по состоянию на v1.3.0 не имеет имеет собственный способ обхода сайтов через HTTP или HTTPS. Это может измениться в будущей версии Data Crawler.
В настоящем время, хотя, возможно, чтобы имитировать веб ползать с помощью GNU wget, широко доступного HTTP-клиент с режимом зеркального отображения и great documentation, чтобы загрузить веб-сайт локально и загрузить его на Discovery Service с помощью соединителя файловой системы Data искателя.
Чтобы отпечатать веб-сайт, используйте wget --mirror http://www.example.com
. Для получения дополнительной информации, пожалуйста, ознакомьтесь с вышеуказанной документацией.
Если пользовательский веб-сканирование - это то, чего вы очень хотите, откройте билет, чтобы мы могли понять, насколько силен спрос на эту функцию.
Одно примечание: wget for Windows существует, но на данный момент он не очень ценен, потому что Data Crawler не поддерживает Windows с версии 1.3.0.
Где находится Data Crawler? Кажется, я не могу найти его на приборной панели. – robyates
Немного ... погребено, к сожалению. Перейдите на страницу https://console.ng.bluemix.net/dashboard/apps и нажмите «Обнаружение» в списке служб внизу. Если вы еще не создали экземпляр службы Discovery для себя, вам нужно сделать это с помощью кнопки «Создать услугу». На панели инструментов для вашего экземпляра службы обнаружения найдите раздел «Предполагаемое использование». Ссылки на скачивание для Data Crawler находятся в этом параграфе. –
Спасибо, Колин. Не то, на что я надеялся, так как мне еще нужно прокручивать отдельные очищенные html-файлы. Команда wget и искатель работают, чтобы получить веб-страницы. В этом случае это сайт WordPress, поэтому я могу использовать WP REST API, что еще проще: GET/wp-json/wp/v2/posts, чтобы получить JSON. – remkohdev