Ответ в this topic помог мне понять, почему иногда мой PDF не находит слова и почему я продолжаю получать разные подсчет слов при использовании различных программ Word Word. Я решил использовать xpdf
. Я преобразовал его в текст и добавил тег -layout, а затем открыл полученный текстовый файл Word 2003. Я отметил количество слов. Затем я решил, к сожалению, удалить тег -layout. На этот раз число слов отличается.Получение правильного количества слов PDF-файла
Почему этот тег влияет на количество слов? Есть ли точный способ найти число слов файла PDF? Я бы даже заплатил за такое программное обеспечение, если мне нужно, пока оно дает мне правильное количество слов.
(я проверил another topic но думал, что найду, если решение, которое я только что предложил бы решить все. Был еще одна тема, где было рекомендовано advancedpdf.)
умолять не совсем правильный подход :) – vulkanino
PDF-файлы не предназначены для машиносчитываемого. Или идите с некоторым решением OCR с ручными исправлениями или наймите людей, чтобы посчитать слова для вас, что дешевле. – Kos
Я думал, вы, ребята, скажете, что информация, размещенная пользователем в OLD TOPIC, была правильной и что я должен ее поддерживать. То, что я понял на этом посту, заключалось в том, что слова были засчитаны, включая слова, которые были разделены на части. Ну, я думаю, я все равно придерживаюсь этого. Спасибо! – user1242840