2015-04-28 3 views
0

Ну в основном у меня такие же проблемы, как обсуждалось здесь: http://blog.joshsoftware.com/2014/08/13/pdf-to-plain-text-processing-using-docsplit/ Но решение, которое они предлагают в docsplit, не работает.docsplit gem pdf to text

Docsplit.extract_text(filepath, {:pdf_opts => ‘-layout’, output: ‘tmp_text_file’}) 

: pdf_opts => «-layout» вариант ничего не делать, и я не могу найти какую-либо документацию о вариантах, как, что, таким образом, я получаю одно слово в каждой строке в текстовом файле вывода ,

Кто-нибудь знает, как получить точный текстовый файл?

Спасибо

+0

Можете ли вы опубликовать образец pdf и вывод, чтобы мы могли попытаться воспроизвести проблему? –

ответ

1

Если вы читаете блог пост тщательно внутренне обработки

:pdf_opts => ‘-layout’ 

пока не поддерживается мастером филиала docsplit камень. Для этого вам нужно использовать https://github.com/documentcloud/docsplit/pull/114. Поэтому использование

gem 'docsplit', git: 'git://github.com/narutosanjiv/docsplit.git' 

Надеюсь, что это поможет. Дайте мне знать, если вы все еще сталкиваетесь с какими-либо проблемами.

+0

Он работал, хорошо выглядящий до сих пор, все еще нужно немного больше тестировать. – Richardlonesteen