Я хочу извлечь полную ссылку из файла HTML. Полная ссылка Я имею в виду абсолютные ссылки. Для этой цели я использовал Тику. Вот мой код:Получение абсолютного URL-адреса с веб-страницы
URL url = new URL("http://www.domainname.com/");
InputStream input = url.openStream();
LinkContentHandler linkHandler = new LinkContentHandler();
ContentHandler textHandler = new BodyContentHandler();
ToHTMLContentHandler toHTMLHandler = new ToHTMLContentHandler();
TeeContentHandler teeHandler = new TeeContentHandler(linkHandler,
textHandler, toHTMLHandler);
Metadata metadata = new Metadata();
ParseContext parseContext = new ParseContext();
HtmlParser parser = new HtmlParser();
parser.parse(input, teeHandler, metadata, parseContext);
System.out.println("title:\n" + metadata.get("title"));
for (Link link : linkHandler.getLinks()) {
System.out.println(link.getUri());
}
Это дало мне относительный URL как /index.html или документы/США/economicreport.html, но абсолютный адрес в этом случае http://domainname.com/index.html.
Как я могу получить всю ссылку правильно, означает полную ссылку, включая доменное имя? Как я могу это сделать на Java?
Извините, Андрей, я буду помнить об этом в будущем. – Alex
Вы открываете поток для получения URL-адреса? –
Каковы ссылки, написанные на странице HTML? Если они родственны там, не так уж странно, что вы также получаете относительные ссылки от парсера, не так ли? –