2013-09-29 7 views
1

Im new to .net, у меня есть pdf, который содержит три таблицы (с деталями покупки), моя задача состоит в том, чтобы извлечь все 3 таблицы из pdf и преобразовать их в лист excel (три листа excel), используя код C#., i google'd для 3days, все, что я мог найти, это код для извлечения текста из pdf (но без какого-либо форматирования), я не могу купить какие-либо сторонние инструменты, мне нужен способ по крайней мере извлечь текст в правильных форматах таблицы, тогда я преобразую его в excel с помощью interop, ИЛИ код для прямого преобразования в excel, независимо от того, какое решение мне нужно срочно, помощь PLS.конвертировать PDF-файл в лист excel

ответ

2

itextpdf поддерживает C#, чтобы извлечь информацию из PDF, однако ответить, куда мы можем извлечь таблицу:

Как описано выше, вы не можете получить поля из PDF, который выглядит как форме, если PDF не является формой с технической точки зрения; вам не удается получить таблицу из PDF, которая выглядит как таблица, если внутри PDF отсутствует структура таблиц (с использованием тегов).

Что я получил от своих support panel

+0

Есть ли какой-либо другой способ для правильного извлечения значений таблицы на основе заголовков столбцов по крайней мере? Pls help. – user2740323

1

Я предлагаю вам взглянуть на xpdf. У этого есть интерфейс командной строки, и вы можете получить текстовый файл из своего pdf. Самое важное: в случае столбцов xpdf создает хорошо распределенный текстовый файл, поэтому вы можете легко прочитать свои данные с помощью Substring() или, в худшем случае, с регулярными выражениями. В простейшем случае вы можете напрямую импортировать вывод pdf в Excel в виде текстового файла с полями фиксированной ширины.

Смежные вопросы