Прочитайте список веб-сайтов, избавьтесь от HTML-тегов и напишите все это в txt-файл

Я пытаюсь получить список веб-сайтов, которые нужно читать один раз за один раз и печатать в одном файле. Мне также хотелось бы, чтобы html-теги были извлечены, и я планирую использовать jsoup для разбора HTML. Как мне это сделать, прежде чем записывать содержимое в файл?Прочитайте список веб-сайтов, избавьтесь от HTML-тегов и напишите все это в txt-файл

источник

2014-11-27 Alex

Exception вполне объяснимо.

Там нет next элемента, потому что, цитирует API:

, если не больше лексем доступны

Оберните ваше задание в виде while (myScanner.hasNext()) цикла после инициализации вашего Scanner.

источник

2014-11-27 14:05:50 Mena

Добавление к ответу - в вашем случае есть html из facebook, которые не соответствуют шаблону разделителя. Для извлечения текста рассмотрите возможность использования Tika – Adi

Прочитайте список веб-сайтов, избавьтесь от HTML-тегов и напишите все это в txt-файл

ответ

Смежные вопросы