2014-12-16 2 views
-3

Я использую XSLFPowerPointExtractor для извлечения текста из файла pptx. Однако весь текст в файле pptx возвращается мне в одной строке. В любом случае, я могу получить текст на каждом слайде отдельно? Я совершенно новичок в этой концепции, поэтому, пожалуйста, дайте подробные ответы.Как извлечь данные из файла pptx с помощью Apache POI?

+0

Вы заглянули в apache poi? –

+0

Да, powerpointextractor - это класс пакета POI. он просто дает мне параметр getText(), который возвращает все содержимое файла в виде строки. –

+0

Вы посмотрели на формат возвращаемой строки? Я бы предположил, что слайды будут каким-то образом разделены, и вы можете разбить строку на разделителе. – forgivenson

ответ

0

Я просмотрел документацию по API, и кажется, что это либо все, либо ничего. У API documentation есть метод, называемый getText(), который возвращает весь текст для всех слайдов, который является именно тем поведением, которое вы наблюдаете.

Немного больше googling показал мне, что способ сделать это - использовать другой API, а именно XMLSlideShow. Это дает вам слайд-доступ к презентации.

Оттуда вы можете получить доступ к различным формам, включая текстовые области, из которых вы можете прочитать текст. На самом деле это объясняется в этом другом вопросе SO, который, я считаю, поможет вам решить вашу проблему: How to get pptx slide notes text using apache poi?

Смежные вопросы