Если вы хотите, чтобы избежать большого количества программ, вы, вероятно, необходимо использовать некоторые библиотеки, которая поможет вы извлекаете текст из PDF-файлов.
У вас есть два варианта:
1) Использование OCR библиотека. Поскольку PDF может содержать изображения, кроме текста, выполнение OCR для получения текста является наиболее общим решением. Чтобы выполнить OCR в PDF-документе, вам необходимо указать convert it to UIImage object. Другим подходом может быть преобразование содержимого WebView в UIImage, но это может привести к тому, что изображение с более низким разрешением может повлиять на производительность OCR.
Недостатком использования библиотеки OCR является то, что вы не получите 100% точного текста, так как движок OCR всегда вводит ошибки.
Лучшие варианты OCR: Tesseract for iOS (бесплатно, но с более высокой частотой ошибок и немного сложнее настроить для получения результатов). Более надежный вариант - BlinkOCR, который можно попробовать, заплатив, когда он используется в коммерческих целях, но вы можете получить тонну помощи от своих инженеров.
2) Вы также можете использовать библиотеку PDF. Библиотеки PDF могут надежно извлекать текст, написанный в документе, за исключением текста, который является частью изображений внутри PDF. Поэтому в зависимости от документов, которые вы хотите прочитать, это может быть лучшим вариантом (или нет).
Некоторые варианты библиотек PDF можно найти here, и по нашему опыту PDFlib дает очень хорошие результаты и является самым настраиваемым.
Вам нужно будет загрузить PDF в виде NSData, затем проанализировать данные как-то –
Как я могу загрузить его как NSData? – modesitt
... = NSData (contentsOfURL :) // https://developer.apple.com/library/prerelease/ios/documentation/Cocoa/Reference/Foundation/Classes/NSData_Class/index.html#//apple_ref/occ/ instm/NSData/initWithContentsOfURL: –