2017-02-09 1 views
0

Я хочу индексировать сайт в свою коллекцию, по сути, хочу индексировать мой сайт Wordpress, перейдя по всем URL-адресам сообщений.Могу ли я «Добавить документ» типа URL-адреса в свою коллекцию?

E.g.

url=http://www.szirine.com/blog/2016/02/07/anne-dunn/ 

Ofcourse, в идеале я хотел бы иметь возможность итеративно индекс целый домен или URI, Э.Г.

url=http://www.szirine.com/ 
url=http://www.szirine.com/blog/ 

ответ

2

Лучшее решение в настоящее время является использование данных Crawler, доступных на приборной панели Discovery Service в Bluemix.

Data Crawler по состоянию на v1.3.0 не имеет имеет собственный способ обхода сайтов через HTTP или HTTPS. Это может измениться в будущей версии Data Crawler.

В настоящем время, хотя, возможно, чтобы имитировать веб ползать с помощью GNU wget, широко доступного HTTP-клиент с режимом зеркального отображения и great documentation, чтобы загрузить веб-сайт локально и загрузить его на Discovery Service с помощью соединителя файловой системы Data искателя.

Чтобы отпечатать веб-сайт, используйте wget --mirror http://www.example.com. Для получения дополнительной информации, пожалуйста, ознакомьтесь с вышеуказанной документацией.

Если пользовательский веб-сканирование - это то, чего вы очень хотите, откройте билет, чтобы мы могли понять, насколько силен спрос на эту функцию.

Одно примечание: wget for Windows существует, но на данный момент он не очень ценен, потому что Data Crawler не поддерживает Windows с версии 1.3.0.

+0

Где находится Data Crawler? Кажется, я не могу найти его на приборной панели. – robyates

+0

Немного ... погребено, к сожалению. Перейдите на страницу https://console.ng.bluemix.net/dashboard/apps и нажмите «Обнаружение» в списке служб внизу. Если вы еще не создали экземпляр службы Discovery для себя, вам нужно сделать это с помощью кнопки «Создать услугу». На панели инструментов для вашего экземпляра службы обнаружения найдите раздел «Предполагаемое использование». Ссылки на скачивание для Data Crawler находятся в этом параграфе. –

+0

Спасибо, Колин. Не то, на что я надеялся, так как мне еще нужно прокручивать отдельные очищенные html-файлы. Команда wget и искатель работают, чтобы получить веб-страницы. В этом случае это сайт WordPress, поэтому я могу использовать WP REST API, что еще проще: GET/wp-json/wp/v2/posts, чтобы получить JSON. – remkohdev

Смежные вопросы