Обновление: я использую Jsoup для разбора текста
При анализе одного сайта я столкнулся с проблемой: когда я получаю html-текст, некоторые ссылки повреждены пространством в случайном месте. Например:Измените сложную строку с неизвестной подстрокой
What a pretty flower! <a href="www.goo gle.com/...">here</a> and <a href="w ww.google.com...">here</a>
Как вы можете заметить, положение пространства совершенно случайно, но одна вещь наверняка: это внутри href
тега. Конечно, я могу использовать метод replace(" ", "")
, но могут быть две или более ссылки. Как я могу решить эту проблему?
Что не так с использованием 'replace (" "," ")' для всех значений href? Кроме того, зачем пытаться исправить данные с сайта, который возвращает мусор? –
Существует также регулярное выражение, которое вы можете использовать для идентификации ваших ссылок, если вы хотите использовать их только «replace». Или [JSoup] (http://jsoup.org/) (см. [Этот вопрос] (http://stackoverflow.com/questions/9071568/parse-web-site-html-with-java)) – eebbesen
Да, я Я использую Jsoup для разбора, но изменение подстроки не изменит исходную строку, не так ли? – Groosha