У меня есть огромный файл файл, составленный из метаданных книги (автор, название, дата, URL). Моя проблема в том, что я хочу работать с именами авторов (которые часто повторяются: у автора могут быть сотни записей), и я хочу работать с подмножеством этих авторов, которые имеют более X записей.Openrefine: text facet by counting
Например, у меня есть 200 записей, связанных с «William Shakespeare», но только одна запись «Джон Блэк» и т. Д. Дело в том, что это классический закон о силе, у меня есть сотни тысяч авторов, большинство из них 1-2 записи.
Использование «Text facet»> «count» невозможно, потому что мой компьютер зависает.
Есть ли запрос, чтобы иметь фасет текста только некоторых записей, основанный на их подсчете?
ли вы пытаетесь использовать пользовательский текст огранку? Как прежде всего вы удаляете пробелы (Facet> Customize Facets> Facet by Blank), а затем настраиваемый фасет текста (Facet> Customize Text Facet). И если это проблема памяти, я рекомендую вам разрезать половину файлов и обрабатывать их в пакетном режиме. – iMitwe
Да, я попробовал. Я уже выделил больше памяти, но мне нужен весь файл, во всяком случае, для других операций. –