2012-03-01 2 views
1

Ответ в this topic помог мне понять, почему иногда мой PDF не находит слова и почему я продолжаю получать разные подсчет слов при использовании различных программ Word Word. Я решил использовать xpdf. Я преобразовал его в текст и добавил тег -layout, а затем открыл полученный текстовый файл Word 2003. Я отметил количество слов. Затем я решил, к сожалению, удалить тег -layout. На этот раз число слов отличается.Получение правильного количества слов PDF-файла

Почему этот тег влияет на количество слов? Есть ли точный способ найти число слов файла PDF? Я бы даже заплатил за такое программное обеспечение, если мне нужно, пока оно дает мне правильное количество слов.

(я проверил another topic но думал, что найду, если решение, которое я только что предложил бы решить все. Был еще одна тема, где было рекомендовано advancedpdf.)

+1

умолять не совсем правильный подход :) – vulkanino

+0

PDF-файлы не предназначены для машиносчитываемого. Или идите с некоторым решением OCR с ручными исправлениями или наймите людей, чтобы посчитать слова для вас, что дешевле. – Kos

+0

Я думал, вы, ребята, скажете, что информация, размещенная пользователем в OLD TOPIC, была правильной и что я должен ее поддерживать. То, что я понял на этом посту, заключалось в том, что слова были засчитаны, включая слова, которые были разделены на части. Ну, я думаю, я все равно придерживаюсь этого. Спасибо! – user1242840

ответ

1

Я хотел бы утверждать, что не существует надежного подсчет слов. Например, чтобы просто сделать вашу жизнь труднее, поместите каждого персонажа этого прекрасного ответа Stackoverflow в один текстовый объект и разместите такие объекты таким образом, чтобы только при визуализации давал людям значимый абзац. Например:

<html><body><style> 
div {float: left;} 
</style><div><p>S</p></div><div><p>t</p></div><div><p>a</p></div> 
<div><p>c</p></div><div><p>k</p></div> 
+1

и многие pdf-файлы кажутся сгенерированными ~, как это печально. – Kos

+0

Благодарим вас за ответ. Я бы не стал спорить с вами в этом вопросе: D – user1242840

+1

Это легко; Я видел PDF-файлы, в которых несколько символов помещались в верхней части страницы, затем несколько больше по левому краю, затем остальная часть текста в верхней части страницы была размещена сразу после более ранних символов, затем некоторые символы во втором столбце, затем еще несколько после более ранних символов в первом поле, затем верхняя часть страницы стирается и рисуются разные символы, затем добавляются еще несколько символов во второй столбец, затем несколько графических штрихов и т. д. , Безумие? ЭТО! ЯВЛЯЕТСЯ! ADOBE !! –

0

Я предлагаю решение с открытым исходным кодом с использованием Java. Сначала вам придется проанализировать файл pdf и извлечь весь текст, используя Tika.

Тогда я верю, что вы можете достичь этого, просто просмотрев извлеченный текст и подсчитав слова.

Пример кода будет выглядеть следующим образом:

if (f.getName().endsWith(".txt")) 
     { 
      in = new BufferedReader(new FileReader(f)); 
      StringBuilder sb = new StringBuilder(); 
      String s = null; 
      while ((s = in.readLine()) != null) 
       sb.append(s); 

      String[] tokenizedTerms = sb.toString().replaceAll("[\\W&&[^\\s]]", "").split("\\W+"); //to get individual terms 

     }  

В массиве tokenizedTerms, вы Виль есть все термины (слова) документа и их можно пересчитать по телефону tokenizedTerms.length(). Надеюсь, это было полезно. :-)

Смежные вопросы