2014-11-28 3 views
0

Я новичок в R, и я пытаюсь очистить базу данных от Scopus. Это лист Excel, содержащий ячейки с большой информацией, разделенные пробелами, комами, точками с запятой и т. Д. ... Идея, что у меня была, заключается в разделении данных с помощью «text to cells» команды MS Excel, а затем использовать MS Access и кнопку замены для очистки данных. Тем не менее, я знаю, что R имеет много возможностей интеллектуального анализа данных, поэтому я хотел бы спросить у вас совета ...Очистка данных, сеть совместной работы

У меня есть столбец 532 строк, каждая ячейка имеет структуру, аналогичную структуре, как это:

Битцер, В., Высшая школа бизнеса, Университет Кейптауна, Портсвуд-роуд, Грин-Пойнт-Кейп, Южная Африка; Гласберген, П., Управление по устойчивому развитию ICIS, Маастрихтский университет, П.О. Box 616Maastricht, MD, Нидерланды

Как вы можете видеть, строка начинается с имени «Битцер, В.» Затем следуют его школа присоединения и точка с запятой, чтобы отделить каждого автора.

Мне нужно извлечь некоторых авторов, относящихся к определенной принадлежности к университету, а затем построить диады на основе бумажного сотрудничества.

Пожалуйста, любое предложение будет так высоко ценится ...

Марио

ответ

0

Я не знаком с R, но это выглядит как работа для OpenRefine. Вы можете искать строку с помощью Regex и создавать собственный фильтр/фасет, чтобы сузить набор данных.

После очистки данных вы можете экспортировать его в формате csv или Excel и импортировать его в Access.

+0

Спасибо за ответ, я попробую OpenRefine. –

Смежные вопросы