2013-03-20 3 views
2

Я хочу извлечь ярлыки, тезисы, категории и соответствующие даты в каждую статью из DBPedia dump file.Извлечь содержимое из большого файла дампа DBPedia в .NET

Я использую dotnetrdf, и я хочу сохранить извлеченные данные в базу данных MS SQL (я не хочу использовать тройные магазины, такие как Virtuoso).

Из-за размера файла дампа я не могу загрузить файл дампа в память.

Есть ли какое-либо решение для извлечения заявлений? Единственный способ, который я могу себе представить, - разделить файл дампа на файлы меньшего размера, это единственное решение?

ответ

3

На самом деле все в dotNetRDF предназначено для поддержки синтаксического анализа потоков, наиболее распространенным случаем является загрузка данных в наши структуры в памяти, но даже с использованием подсистемы потокового парсера под капотом.

См. Раздел Advanced Parsing в документации по чтению RDF, в которой представлен Handlers API, этот API дает пользователям полный контроль над тем, что происходит с данными, полученными анализатором. Таким образом, вы можете написать собственный обработчик, который получает данные по мере его создания потоком и помещает его в вашу базу данных.

+0

Я просто поближе рассмотрел ссылку API-интерфейсов Handlers, и, похоже, это действительно то, что нужно здесь. –

Смежные вопросы