2014-01-17 5 views
0

Позвольте мне описать проблему напрямую. Если вы перейдете по следующей ссылке, вы увидите список html-ссылок, содержащих истории, написанные Aesop. Каждая из историй содержит моральное утверждение. Мне нужно скопировать и сохранить только строки, содержащие «Moral of Aesops Fable:« Мне нужно получить результаты как последовательность, разделенную пробелом или новой строкой.Как искать и копировать определенную строку в html связанных страницах

http://www.taleswithmorals.com/

Как я могу это сделать? Какую платформу проще использовать в этом случае? Можете ли вы провести меня через, пожалуйста?

ответ

0

Я сделал что-то очень похожее на это, используя python и mechanize (веб-бот).

Вы также можете просто использовать urllib и проанализировать ответ, так как вы знаете точную строку, которую ищете.

Я думаю, что Python отлично подходит для этого.

0

http://docs.oracle.com/javase/6/docs/api/java/lang/String.html

Java имеет довольно продвинутую родную обработку строк. Если бы я пытался сделать это в java, то я бы сделал метод indexOf (String), который возвращает первый индекс определенной подстроки внутри этой строки. Используя это, вы можете искать теги html href, которые обозначают ссылку (посмотрите на источник HTML страницы). Если вы не знаете, как найти сам файл HTML, вот How do you Programmatically Download a Webpage in Java довольно хорошее объяснение того, как вытащить файлы HTML с помощью java. Вы можете пройти через источник каждой отдельной страницы и найти «Мораль Эзопа Fable:» подстроку, а затем сохранить строку сразу после его использования PrintWriter Java, которая может записать строку в файл: http://docs.oracle.com/javase/7/docs/api/java/io/PrintWriter.html

Надеюсь это поможет!

Смежные вопросы