Поэтому у меня есть страницы источника в тексте, и я знаю, что она содержит ссылку, отформатированный как этотпростой Java Regex читать между двумя
IMG SRC = "HTTP: // someurl и заканчивается -t1
Я пытаюсь извлечь все, что находится между img src и -t1. Это не должно быть идеально. Я могу работать с «http ... или src =» http ... или так далее. Я просто хочу обрезать исходный код, чтобы вокруг этого URL. Я читал о Regex, но просто не могу понять логику. Любой человек может помочь?
File workfile = new File("page.txt");
BufferedReader br = new BufferedReader(new FileReader(workfile));
String line;
while ((line = br.readLine()) != null) {
//System.out.println(line);
//Pattern p = Pattern.compile("src"+"t1"); ???
//Matcher m = p.matcher("t1"); ???
}
br.close();
Редактировать : Поправлено:
String url = line.split("<img src=")[1].split("-t1")[0];
System.out.println(url);
Спасибо всем ответам.
Это похоже на HTML, так почему бы вам не использовать парсер HTML? – fge
тестирование ... Не знаю, что такое HTML-парсер – anno