2015-07-12 2 views
2

Я хочу читать файлы .docx и .pdf, хранящиеся на локальном диске с использованием PL/SQL. И я хочу извлечь некоторые данные, такие как имя, контакт, адрес электронной почты из файлов .docx или .pdf.Чтение файлов .docx и .pdf с использованием pl sql

Все это с использованием PL/SQL.

Любая помощь будет оценена по достоинству.

+0

Я не знаю, можете ли вы сделать это с файлом doc, вы должны попытаться получить свой ввод из текстового файла. –

+0

И для простого текста, что я делаю? @JuanCarlosOropeza –

+0

@JuanCarlosOropeza - Oracle Text поддерживает форматы MS Office и PDF. Нет необходимости в обычном тексте – APC

ответ

3

У Oracle есть продукт, который обрабатывает свободный текст, Oracle Text. Это может касаться обычных двоичных форматов: вы должны быть в порядке с Word и PDF. Find out more.

Текст поддерживает поиск документов с различными типами индексов для различных вариантов использования. Однако, как и обычные индексы, они действительно подходят для поиска равенства. То есть мы можем искать документ для конкретной электронной почты так:

select * from t23 
where contains(col_t, '[email protected]') > 0 
/

Но это не очень полезно, когда дело доходит до извлечения всех адресов электронной почты из документа. Вот почему мы Nature предоставили нам инструменты для определения структурированных документов (XML, JSON). Итак, насколько хорошо текст будет поддерживать ваш фактический прецедент, зависит от деталей, которые вы не опубликовали.


В вашем вопросе говорится о локальных файлах. Текст Oracle будет work with BFILEs, то есть файлы, хранящиеся извне. Определите столбец таблицы с типом данных BFILE. Find out more.

Однако BFILE должны храниться в каталогах ОС на сервере базы данных (т. Е. Локально в базе данных, а не на вашем ПК), которые подпадают под ожидаемые разрешения безопасности. Узнайте о creating Directories here.

+0

Спасибо за ваш вклад. У меня есть 'файл возобновления' в формате' docx или pdf ', и я хочу извлечь некоторую базовую информацию, такую ​​как «имя, контакт, адрес электронной почты, адрес и образование». @APC –

+0

Что делать для файлов, хранящихся на сервере базы данных? @APC –

+0

Я уточнил свой ответ, добавив ссылку на документацию для типа данных BFILE. – APC

Смежные вопросы