У меня есть куча PDF-файлов, и моей программе Perl необходимо выполнить полнотекстовый поиск, чтобы они возвращали те, которые содержат определенную строку. На сегодняшний день я использую это:Как я могу выполнить полнотекстовый поиск файлов PDF с Perl?
my @search_results = `grep -i -l \"$string\" *.pdf`;
где $ строка текста для поиска. Однако это не подходит для большинства PDF-файлов, потому что формат файла, очевидно, не ASCII.
Что я могу сделать, это проще всего?
Уточнение: Существует около 300 pdf-файлов, чье имя я не знаю заранее. PDF :: Core, вероятно, перебор. Я пытаюсь получить pdftotext и grep, чтобы играть хорошо друг с другом, учитывая, что я не знаю имена файлов pdf, я пока не могу найти правильный синтаксис.
Окончательное решения с использованием предложений Адама Беллэйром в ниже:
@search_results = `for i in \$(ls); do pdftotext \$i - | grep --label="\$i" -i -l "$search_string"; done`;
Возможно, вы захотите переименовать вопрос в «Полнотекстовый поиск в формате PDF с Perl» – 2008-09-28 10:54:05