Как извлечь текст из файла pdf и doc без загрузки

-3

Я много искал, прежде чем задавать этот вопрос. У меня есть программа (Java), который ползает некоторой Wep страницы и пытаются найти некоторые .doc и .pdf файлов и скачать их, но только один .pdf или .doc может покрыть до 3- 4mb, что плохо, потому что есть миллионы файлов .. поэтому я решил извлечь их текст, не загружая весь файл. В принципе, мне нужно увидеть файл pdf или doc онлайн и загрузить их текст, но я не мог понять, как это сделать. При необходимости я могу предоставить свой код.Как извлечь текст из файла pdf и doc без загрузки

Редактировать: Этот вопрос можно закрыть сейчас, так как я получил идею и (нет) решение. Спасибо за помощь.

И что случилось с теми понижениями по вопросу?

источник

2016-02-18 kaan yılmaz

Чтение файла с веб-сайта в Интернете без скачивания невозможно. Если у вас есть контроль над сервером, вы можете написать веб-службу, которая может анализировать файлы по требованию и извлекать интересующие вас части, которые затем будут отправлены клиенту. –

У меня нет контроля. Я просматриваю веб-страницы. –

, но вы можете скачать их заранее и получить резюме каждого из них. Во время консультации вы выполняете поиск в своих данных. –

Это невозможно. Вы можете начать извлечение документа только после загрузки байтов.

(если вы не имеете контроля над сервером, вы могли бы сделать добычу на стороне сервера и предоставить ссылку на txt скачать)

источник

2016-02-18 08:17:56 RobAu

У меня нет контроля над серверами. Я сканирую тысячи веб-сайтов и получаю файлы .. поэтому мне приходится скачивать файлы. Это не будет эффективная программа, но в любом случае спасибо. –

@ kaanyılmaz Да, это будет неэффективно. Вы можете извлекать файлы во время загрузки, чтобы не допустить их сохранения. Но это лучшее, что вы можете получить, я боюсь. – RobAu

Как только я загружу файл, я извлечу текст и получаю rif файла. Это моя единственная идея. –

Чтение файла с веб-сайта в сети Интернет, не загружая его невозможно.

Если у вас есть контроль над сервером, вы можете написать веб-службу, которая может анализировать файлы по требованию и извлекать интересующие вас детали, которые затем будут отправлены клиенту.

Если нет, и если у вас возникнет более сложная проблема, вы можете написать HTTP-клиент, который начнет загружать файл и анализирует его на лету, загружая только столько, сколько вам нужно, чтобы извлечь часть) тебе нужно. Это может быть или не быть выполнимо (или стоит) в зависимости от того, где в файлах находились «интересные» биты. Если в большинстве случаев они близки к началу, вы можете значительно уменьшить размер загрузки.

Подробное объяснение того, как это сделать, возможно, выходит за рамки рекомендаций для длины ответа StackOverflow.

источник

2016-02-18 08:25:37

Я не знаю, какие части файлов именно поэтому я загружаю весь файл. и что с этими понижениями. Я не задавал глупых или повторяющихся вопросов. Я просто не мог найти решения и попросил сообщество, так как такого вопроса не было. –

Что касается downvotes, то, как пишется этот вопрос, звучит так: «Я хочу сделать X, но не знаю, как» без объяснения того, какие подходы вы рассмотрели. Обычно мы ожидаем, что участники опроса предоставят доказательства того, что они провели исследование, так что другие не повторяют ту же работу, которую вы сделали. –

Я думаю, что это было так, как будто я хочу делать X и Y, сделал X, но я так помогу. –

Как извлечь текст из файла pdf и doc без загрузки

ответ

Смежные вопросы