Я пытаюсь читать в огромном CSV-файле из R, но у меня возникают проблемы, поскольку элементы столбцов, которые предположительно находятся в строковом формате, не разделяются кавычками и создает новую строку каждый раз, когда появляется новая строка. Мои данные ограничены символом ~.строки read.csv без кавычек в R
Например, мои данные выглядит что-то похожее на это:
a ~ b ~ c ~ d ~ e
1 ~ name1 ~ This is a paragraph.
This is a second paragraph.
~ num1 ~ num2 ~
2 ~ name2 ~ This is an new set of paragraph.
~ num1 ~ num2 ~
Я надеюсь, чтобы получить что-то вроде этого:
a | b | c | d | e | ____________________________________________________________________________________ 1 | name1 | This is a paragraph. This is a second paragraph. | num1 | num2 | 2 | name2 | This is a new set of paragraph. | num1 | num2 |
Но я в конечном итоге с чем-то уродливым, как это:
a | b | c | d | e | __________________________________________________________________________________ 1 | name1 | This is a paragraph. | | | This is a second paragraph | | | | | | num1 | num2 2 | name2 | This is a new set of paragraph. | num1 | num2 |
Я попытался установить allowEscapes = TRUE в read.csv, но это не помогло. Мой вход в настоящее время выглядит следующим образом:
read.csv(filename, header = T, sep = '~', stringAsFactors = F, fileEncoding = "latin1", quote = "", strip.white = TRUE)
Моя следующая идея заключается в том, чтобы вставить цитату после каждого ~, но я надеюсь увидеть, если есть более эффективные методы.
Любая помощь будет оценена по достоинству.
Добро пожаловать в SO. Пожалуйста, укажите образцы данных – Metrics
Каждая строка заканчивается '' ', я прав? – zero323
@Metrics: Я не могу предоставить данные примера, потому что 1) он большой и грязный, 2) я получаю его через базу моего наблюдателя и не могу копировать и вставлять данные. Но этот пример должен быть близок к данным – samuraiexe