2016-10-18 9 views
1

Я запускаю запрос на DBpedia, используя jena framework, как часть проекта, в январе 2016 года, чтобы подсчитать различные свойства 100 фильмов. Я вчера писал отчет, поэтому я попытался подтвердить результаты, но на удивление они изменились. В январе у меня было еще 100 объектов, вчера я получил 63. Я использовал тот же самый запрос, что и все!Результаты DBpedia, измененные с течением времени

Я даже сохранил список ярлыков свойств на моем жестком диске в январе, которые подтверждают, что их было 100+. Я проверил, все ли они все еще используются для описания ресурсов фильмов в DBpedia, я обнаружил, что многие из них не являются. Я также имел взглянуть на список изменений на их сайт, и это единственное, что я обнаружил, что может быть актуальным на странице (http://wiki.dbpedia.org/dbpedia-version-2016-04), который говорит:

теперь отфильтровывать тройки из экстрактора Raw Infobox, что уже нанесены на карту. Например. не более «dbo: birthPlace» и « dbp: birthPlace | dbp: placeOfBirth | ...» в том же ресурсе. Эти тэги теперь перемещаются в набор данных, привязанных к «инфобоксам», а не загружается на основной конечной точке. См. Вопрос 22 для более подробной информации.

Как вы думаете, это причина, или вы знаете какое-либо объяснение этому?

Запрос Я использовал:

select (count(distinct ?pr) AS ?count) where { 
    ?su ?pr ?ob . 
     select ?su{ 
     ?su a <http://schema.org/Movie> . 
     } 
    limit 100 

} 

Спасибо.

+1

Возможная причина заключается в том, что сервер обрезает результаты - у DBpedia есть некоторые ограничения ресурсов и запрос потенциально сканирует значительную часть базы данных. Чтобы устранить это, попробуйте в разное время и в разные дни. Если 63 одинаково каждый раз, когда это вряд ли будет ограничением ресурсов. – AndyS

+0

На самом деле я подумал об этом, поэтому я попытался перечислить 1000 предметов и проблем не было. Кроме того, ограничение применяется обычно при запуске запроса на публичной конечной точке. Я использую программу java/jena. – M20

+1

Я думаю, что это причина «Мы теперь отфильтровываем тройки из Raw Infobox Extractor ...», прежде чем вы получили больше свойств, которые были в большинстве случаев синонимами – jimkont

ответ

1

Обратите внимание, что ограничения ресурсов публичной службы (таймауты запросов, итоговые числа строк и т. Д.) Применяются независимо от того, используете ли вы конечную точку SPARQL на основе HTTP, Jena/Java/JDBC, ODBC или иначе.

Кроме того, я уверен, что вы не используете запрос, как показано здесь и сейчас, потому что он использует недопустимый синтаксис.

Все, что сказал, вы могли бы попробовать ваш правильный запрос на

(Последнее, конечно, не были обновлены с новыми данными DBpedia но это может быть в любое время, поэтому принятие отказа от ответственности будет в ваших интересах. Что-то вроде: «Это общедоступное редактирование, l который будет извлекаться из Википедии с помощью расширяющейся кодовой базы, поэтому результаты могут (и будут и иметь) меняться со временем. »)

+0

В дополнение к отказу от ответственности, можно ссылаться на конкретную версию DBpedia, поскольку дампы доступны, по крайней мере, для последних версий. – AKSW

2

На прошлой неделе был выпущен новый выпуск DBpedia, поэтому публичная конечная точка содержит только последний набор данных.

И я не думаю, что журнал изменений является полным в отношении всех изменений данных. Конечно, упомянутый комментарий уменьшает количество свойств для одного ресурса, но, не видя вашего запроса, я ничего не могу сказать.

Если вам действительно нужны старые данные, вы все равно можете загрузить дампы и загрузить их в свой местный трехместный магазин.

+0

Я обновил вопрос, и я включил запрос. Остальная часть кода представляет собой простой экран ResultSet. Как вы думаете, я могу использовать комментарий, который я разместил в качестве объяснения (на ваш взгляд)? Причина, по которой я не могу позволить себе начать заново, а количество свойств - всего лишь ввод больших операций. Поэтому мне нужно обосновать, почему это может дать вам разные результаты, если вы попробуете те же мысли в другое время. – M20

+1

«Это общедоступный, живой набор данных, извлекаемый из Википедии развивающейся кодовой базой, поэтому результаты могут (и будут, и иметь) меняться со временем». – TallTed

Смежные вопросы