У меня есть несколько документов PDF в папке, которые имеют определенную структуру:Разбор PDF документ с рубином
Теперь я хочу, чтобы иметь возможность анализировать информацию из PDF. Обратите внимание, что параграфы имеют разную длину.
Очевидно, я не прошу вас решить проблему для меня, но мне нужны некоторые указания относительно того, как это можно достичь.
Я использовал nokogiri раньше и технически мне нужно что-то подобное, но для PDF-файлов.
Так что результат псевдо для моего примера будет выглядеть следующим образом:
- ItemA
- Title: ItemA
- File: 123456789.pdf
- Image: ImageA.png (the image was stored on disk)
- Subtitle1: Content for subtitle 1
- Subtitle2: Content for subtitle 2
- Subtitle3: Content for subtitle 3
- TitleB
- [...]
Несмотря на то, что вы внимательно это сформулировали, я думаю, что вам может быть лучше, просто подойдет прямо к вопросу о рекомендациях по программному обеспечению на бета-сайте http://softwarerecs.stackexchange.com/ - есть несколько библиотек обработки PDF-файлов, и похоже, что вы хотите что-то, что будет хорошо разбираться в структуре данных. Попросив «лучшую библиотеку Ruby для разбора PDF-файлов» и используя контент из вашего вопроса здесь, я думаю, что это очень приемлемый вопрос на этом сайте SE. Скорее всего, библиотека будет включать пример кода. –
@NeilSlater Hey Neill, спасибо за ваш комментарий. Я знаю, что стиль моего вопроса немного сложный. Я действительно думаю, что это конкретная проблема разработки программного обеспечения, и я уже опубликовал свой собственный ответ, так что другие люди могут по-прежнему пользоваться преимуществами. – Besi
ОК, я не думаю, что это не по теме, просто вы можете получить другой фокус (лучший инструмент для работы) ответы на другом сайте. Если вы собираетесь отвечать самим себе, то я думаю, что это будет очень полезно для других, чтобы найти это на SO.Лучшая ссылка в разделе «Связанные», безусловно, устарела, и в настоящее время она будет рассмотрена без темы –