Я запускаю запрос на DBpedia, используя jena framework, как часть проекта, в январе 2016 года, чтобы подсчитать различные свойства 100 фильмов. Я вчера писал отчет, поэтому я попытался подтвердить результаты, но на удивление они изменились. В январе у меня было еще 100 объектов, вчера я получил 63. Я использовал тот же самый запрос, что и все!Результаты DBpedia, измененные с течением времени
Я даже сохранил список ярлыков свойств на моем жестком диске в январе, которые подтверждают, что их было 100+. Я проверил, все ли они все еще используются для описания ресурсов фильмов в DBpedia, я обнаружил, что многие из них не являются. Я также имел взглянуть на список изменений на их сайт, и это единственное, что я обнаружил, что может быть актуальным на странице (http://wiki.dbpedia.org/dbpedia-version-2016-04), который говорит:
теперь отфильтровывать тройки из экстрактора Raw Infobox, что уже нанесены на карту. Например. не более «dbo: birthPlace» и « dbp: birthPlace | dbp: placeOfBirth | ...» в том же ресурсе. Эти тэги теперь перемещаются в набор данных, привязанных к «инфобоксам», а не загружается на основной конечной точке. См. Вопрос 22 для более подробной информации.
Как вы думаете, это причина, или вы знаете какое-либо объяснение этому?
Запрос Я использовал:
select (count(distinct ?pr) AS ?count) where {
?su ?pr ?ob .
select ?su{
?su a <http://schema.org/Movie> .
}
limit 100
}
Спасибо.
Возможная причина заключается в том, что сервер обрезает результаты - у DBpedia есть некоторые ограничения ресурсов и запрос потенциально сканирует значительную часть базы данных. Чтобы устранить это, попробуйте в разное время и в разные дни. Если 63 одинаково каждый раз, когда это вряд ли будет ограничением ресурсов. – AndyS
На самом деле я подумал об этом, поэтому я попытался перечислить 1000 предметов и проблем не было. Кроме того, ограничение применяется обычно при запуске запроса на публичной конечной точке. Я использую программу java/jena. – M20
Я думаю, что это причина «Мы теперь отфильтровываем тройки из Raw Infobox Extractor ...», прежде чем вы получили больше свойств, которые были в большинстве случаев синонимами – jimkont