Я пытаюсь получить текст из pdf-документа, используя pdf.js в JS. Однако pdf.js не имеет достойной документации, я уже посмотрел на доступных примерах, и я подошел к этому:Получение textcontent pdf.js
var pdfUrl = "http://localhost/test.pdf"
var pdf = PDFJS.getDocument(pdfUrl);
pdf.then(function(pdf) {
var maxPages = pdf.pdfInfo.numPages;
for (var j = 1; j < maxPages; j++) {
var page = pdf.getPage(j);
page.then(function() {
var textContent = page.getTextContent();
})
}
});
бит страница работает, потому что я могу видеть это PROMISS. Тем не менее, запуск этого бита дает:
Warning: Unhandled rejection: TypeError: Object #<Object> has no method 'getTextContent'
TypeError: Object #<Object> has no method 'getTextContent'
Он работает таким образом в примерах, которые я видел. Он получает страницу, и я могу распечатать количество страниц.
Любой, у кого есть опыт, который может пролить свет?
* Бонусный вопрос: Меня интересует только разбор pdf, а не его рендеринг в браузере. Однако это нужно делать клиентам. Является ли pdf.js правильным молотком для работы?
Не может быть проблемой, но 'page.then (function() {' должен быть 'page.then (function (page) {' –
На самом деле это была проблема! Сделайте это ответом, и все готово. – Difusio