У меня есть строка HTML (на немецком языке), как это:извлекая токены из строки с помощью Regex в Java
<li>Peter Goldberg Dr. , Brünner Straße 19, A-1210, Tel +43-1-1234567 (N)</li>
Он состоит из 3-х частей:
- имя лица (» Peter Goldberg Dr. ")
- адрес лица (« Brünner Straße 19, A-1210 »)
- и номер телефона человека или просто остальная часть строки (« Тел + 43-1- 1234567 (N) ")
Мне нужно разделить целую строку на эти 3 компонента без тэгов HTML-тегов <li>
и </li>
.
Я пробовал это с помощью классов Pattern и Matcher, но я делаю что-то неправильно.
Pattern myPattern = Pattern.compile("<li>.+,.+Tel.+</li>");
Matcher mat = myPattern.matcher(eingabe[0]);
while (mat.find()) {
System.out.println(mat.group(0));
}
Помогло ли кто-нибудь помочь?
Большое спасибо!
ответы покажут вам, как получить эти конкретные поля из этой конкретной строки, но что? Большинство регулярных выражений предназначены для использования на других входных строках, и только один пример оставляет много вопросов без ответа. Будет ли адрес всегда иметь ровно одну запятую посередине? Или может быть 0 или 2 или более? Всегда ли номер телефона начинается с «Тел»? Может ли имя человека или номер телефона содержать в нем запятую? В зависимости от ответов на эти вопросы, опубликованные ответы могут быть неверными. – ajb