2015-06-03 2 views
1

Я использую Freebase dump data для использования RDF и объединим его с annotation ClueWeb09 data. Но, я сталкиваюсь со следующей проблемой:Проблема для объединения данных аннотации Clueweb09 и данных дамба Freebase

clueweb09-en0000-00-00011 ISO-8859-1 английского языка 17964 17980 0,999813 0,000165 /м/02h40lc

Но, когда я прочитал Данные дампа Freebase с (Java & Ubuntu) упоминается в середине /m.02h40lc, когда я читаю gz-файл. Я хочу знать, что я сделал что-то неправильно ИЛИ я должен изменить /m.02h40lc до /m/02h40lc вручную.

ответ

0

Да, вы должны заменить все косые черты (/) в идентификаторах с периодами (.) При работе с текущими дампами данных. Это преобразование было необходимо для правильной работы URI, содержащих идентификаторы. Это верно не только для MID, но и для других идентификаторов, используемых для типов, пространств имен и т. Д. Например, type/object/name становится типом.object.name в дампе данных.

Смежные вопросы