Я много искал, прежде чем задавать этот вопрос. У меня есть программа (Java), который ползает некоторой Wep страницы и пытаются найти некоторые .doc и .pdf файлов и скачать их, но только один .pdf или .doc может покрыть до 3- 4mb, что плохо, потому что есть миллионы файлов .. поэтому я решил извлечь их текст, не загружая весь файл. В принципе, мне нужно увидеть файл pdf или doc онлайн и загрузить их текст, но я не мог понять, как это сделать. При необходимости я могу предоставить свой код.Как извлечь текст из файла pdf и doc без загрузки
Редактировать: Этот вопрос можно закрыть сейчас, так как я получил идею и (нет) решение. Спасибо за помощь.
И что случилось с теми понижениями по вопросу?
Чтение файла с веб-сайта в Интернете без скачивания невозможно. Если у вас есть контроль над сервером, вы можете написать веб-службу, которая может анализировать файлы по требованию и извлекать интересующие вас части, которые затем будут отправлены клиенту. –
У меня нет контроля. Я просматриваю веб-страницы. –
, но вы можете скачать их заранее и получить резюме каждого из них. Во время консультации вы выполняете поиск в своих данных. –