Ну в основном у меня такие же проблемы, как обсуждалось здесь: http://blog.joshsoftware.com/2014/08/13/pdf-to-plain-text-processing-using-docsplit/ Но решение, которое они предлагают в docsplit, не работает.docsplit gem pdf to text
Docsplit.extract_text(filepath, {:pdf_opts => ‘-layout’, output: ‘tmp_text_file’})
: pdf_opts => «-layout» вариант ничего не делать, и я не могу найти какую-либо документацию о вариантах, как, что, таким образом, я получаю одно слово в каждой строке в текстовом файле вывода ,
Кто-нибудь знает, как получить точный текстовый файл?
Спасибо
Можете ли вы опубликовать образец pdf и вывод, чтобы мы могли попытаться воспроизвести проблему? –