2017-02-20 9 views
1

Я интегрировал Tesseract-ocr в Alfresco 5.0.d, Мое требование - преобразовать данные PDF-файла в текстовый формат.Tesseract-ocr не работает должным образом после интеграции с alfresco 5.0.d

И его работая отлично для малых размеров файлов.

Но если я буду загружать большие файлы размером, скажем, более чем 50 MB,

В этом случае его отдача ниже Exception, и весь файл PDF не преобразуются в текстовый файл. Только некоторые исходные страницы преобразуются в текстовый формат.

Пожалуйста сошлитесь внизу журналы

java.net.SocketTimeoutException: Read timed out 
    at java.net.SocketInputStream.socketRead0(Native Method) 
    at java.net.SocketInputStream.socketRead(SocketInputStream.java:116) 
    at java.net.SocketInputStream.read(SocketInputStream.java:170) 
    at java.net.SocketInputStream.read(SocketInputStream.java:141) 
    at sun.security.ssl.InputRecord.readFully(InputRecord.java:465) 
    at sun.security.ssl.InputRecord.read(InputRecord.java:503) 

Кто-нибудь сталкивались с такой же вопрос, пожалуйста, помогите мне.

Заранее спасибо.

+0

Может кто-нибудь, пожалуйста, помогите мне решить эту проблему, это действительно на высоком приоритете –

ответ

2

Вы, возможно, придется увеличить размер контента трансформации PDF в текст в alfresco-global.properties файле

вы можете дать размер для трансформации, используя эти свойства

если вы используете OOoDirect

content.transformer.complex.OpenOffice.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120

если вы используете OOoJodConverter

content.transformer.complex.JodConverter.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 
content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120 

относится к этому сообществу Question https://community.alfresco.com/thread/211670-changing-transformation-limits-version-5b

https://community.alfresco.com/thread/203406-how-to-config-alfresco-documents-preview-size-limit-on-42d

https://injustfiveminutes.wordpress.com/2012/11/28/docx-pptx-document-preview-fails-on-alfresco-4-2-c/

+0

вы можете изменить значения maxSourceSizeKBytes. – vikash

2

Я немного удивлен. Alfresco уже включает в себя PDFBox, который отвечает за преобразование PDF -> TXT. И поэтому вам не нужно использовать Tesseract. Даже ваш след кажется немного странным. Чтобы узнать, что происходит с трансформаторами, установите log4j.logger.org.alfresco.repo.content.transform.TransformerDebug и log4j.logger.org.alfresco.repo.content.transform равными - DEBUG.

+0

Фактически PDF содержит отсканированные изображения, и я должен использовать Tesseract ... Но я не понимаю, почему это дает ошибку «Время ожидания чтения». Можете ли вы помочь мне решить эту ошибку, или можно увеличить этот период времени –

+0

Привет, используете этот модуль (https://github.com/bchevallereau/alfresco-tesseract). Это я развивался сам. –

+0

Я загрузил его по следующей ссылке: https://github.com/UB-Mannheim/tesseract/wiki и используя тот же –

Смежные вопросы