Я закодировал java-программу для извлечения содержимого веб-страницы жестко закодированного URL. Теперь я хочу извлечь URL-адрес из веб-браузера по мере того, как пользователь посещает его, вместо использования жестко закодированного URL-адреса. существуют ли какие-либо java-библиотеки или API-интерфейсы?Извлечение URL из адресной строки браузера
ответ
В документе HTML есть несколько шаблонов и разных тегов. Извлечение полезной информации (соответствующего контента) нелегко, потому что вы должны понимать, как написана страница, чтобы действительно знать, какая часть контента релевантна или нет.
Существует общее предложение извлечь только релевантный контент с веб-страницы, называемой biolerpipe, которая была опубликована в ACM. Он использует некоторые эвристики, чтобы найти соответствующие фрагменты текста и извлечь их.
Если вы хотите извлечь URL-адрес из документа, вам необходимо найти и извлечь URL-адрес, или, если URL-адрес не находится в теге, вам нужно искать внутри содержимого страницы для шаблона url для извлечения ссылку правильно. Нет другого способа получить URL-адреса со страниц (документов).
Вы не можете избежать HTML-тегов и сценариев, представленных в содержимом URL-адреса (в том виде, в котором браузер показывает вам), поскольку эти теги являются частью содержимого URL-адреса. Чтобы получить соответствующий контент URL-адреса, вы можете использовать котел для извлечения полезной информации (которая использует класс URL). В противном случае вы можете использовать класс URL.
После того, как вы boilerpipe на вашем пути к классам, извлекая «основной» содержание с веб-страницы очень просто:
URL url = new URL("http://www.example.com/some-location/index.html");
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you
String text = ArticleExtractor.INSTANCE.getText(url);
Но есть некоторые страницы, которые Boilerpipe не может извлечь, что я установил here. Я прикрепил исходный код к исправлению. Это исправление позволяет избежать следующего исключения "HTTP response code : 403 for URL"
на некоторых страницах.
Я не хочу получать URL-адрес данной страницы. Я хочу получить URL-адрес любой веб-страницы, когда пользователь посещает ее. Есть ли способ использовать javascript в java-коде для этого? –
- 1. адресной строки браузера не отображается полный URL
- 2. скрытие адресной строки браузера
- 3. ProxyPass & ProxyPassReverse - Получить исходный URL-адрес из адресной строки браузера
- 4. Как получить URL-адрес из адресной строки браузера?
- 5. Извлечение почтового индекса из адресной строки
- 6. Извлечение URL из строки
- 7. Обновление адресной строки браузера без перезагрузки
- 8. чтение адресной строки браузера с использованием java
- 9. Скрытие адресной строки браузера без перезагрузки
- 10. Вызов функции Javascript из URL/адресной строки
- 11. Извлечение идентификатора из URL-адреса браузера?
- 12. Как предотвратить выполнение javascript из адресной строки браузера?
- 13. Извлечение URL из строки Javascript
- 14. Извлечение последней строки из URL
- 15. Извлечение строки запроса из URL
- 16. preg_match - извлечение строки из URL
- 17. Извлечение строки Url из ArrayList
- 18. Извлечение частей URL из строки
- 19. Извлечение даты из строки (URL)
- 20. Просмотр адресной строки
- 21. Страница из адресной строки с #hash
- 22. Можно ли получить событие keydown из адресной строки браузера?
- 23. прочитайте url, введенный в адресной строке браузера, используя JAVA
- 24. Извлечение контактов из адресной книги в Iphone
- 25. Swift Crash Извлечение Запись из адресной книги
- 26. Извлечение измененного URL-адреса из адресной строки в контроллере в графе
- 27. JWT не отправляется при загрузке url непосредственно из адресной строки браузера
- 28. Как отключить пользователя при изменении URL-адреса из адресной строки браузера
- 29. Открыть мое приложение по URL из адресной строки браузера, как Flipkart делает
- 30. Скопируйте URL-адрес из адресной строки браузера и вставьте в форму с помощью html?
[** 'document.location' **] (https://developer.mozilla.org/en-US/docs/Web/API/document.location) или **' request.getRequestURL() '* * ?? –
Ваш вопрос касается java или javascript? –
Я хочу, чтобы URL-адрес не был указан. Вопрос о java –