Я следую их руководству «Пример кода» на своем github. https://github.com/modesty/pdf2json#code-examplepdf2json дает мне пустой выходной файл txt?
В примере, в котором говорится: «Разбор PDF-файла, напишите .txt-файл (который содержит только текстовое содержимое PDF-файла)», я скопировал и вставил точную реализацию в свой локальный файл JavaScript и назвал его, но выходной текстовый файл был полностью пустым.
'use strict';
let fs = require('fs');
let PDFParser = require("pdf2json");
let pdfParser = new PDFParser();
pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError));
pdfParser.on("pdfParser_dataReady", pdfData => {
fs.writeFile("./node_modules/pdf2json/test/F1040EZ.content.txt", pdfParser.getRawTextContent());
});
pdfParser.loadPDF("./node_modules/pdf2json/test/pdf/fd/form/F1040EZ.pdf");
Это что-то, что я делаю неправильно? Или это не работает с их стороны? Также есть ли альтернативы PDF для текстовых конвертеров для Nodejs без установки дополнительных двоичных файлов?
Это обширная тема. В теге [pdf] (http://stackoverflow.com/tags/pdf/info) сказано: «Извлечение текста из PDF-файла может оказаться невозможным, не прибегая к оптическому распознаванию символов (OCR). Буквы могут быть закодированы как глифы шрифта, строка искусство, векторная графика или растровые изображения ». Для того, чтобы кто-нибудь мог консультироваться, потребуется дополнительная информация и примеры PDF-файлов. – dwarring