2016-06-17 2 views
1

Я пытаюсь read.table для табуляции файла с помощью следующей команды:read.table квиты после встречи специального символа

df <- read.table("input.txt", header=FALSE, sep="\t", quote="", comment.char="", 
       encoding="utf-8") 

Там должен быть 30 million строк. Однако, после чтения read.table(), df содержит только ~ 6 миллионов строк. И это предупреждение, как это:

Предупреждения Сообщение:

In read.table("input.txt", header = FALSE, sep = "\t", quote = "", : 
    incomplete final line found by readTableHeader on 'input.txt' 

Я считаю read.table квиты после встречи специального sympbol (ASCII code: 1A Substitute) в одной из строк столбцов. Во входном файле единственным специальным символом является вкладка, потому что она используется для разделения столбцов. Есть ли в любом случае, чтобы просить read.table рассматривать любого другого персонажа как не особого?

+0

Что такое символ? Можете ли вы добавить [воспроизводимый пример] (http://stackoverflow.com/q/5963269/1217536) для людей, с которыми нужно работать? – gung

ответ

0

Если у вас есть 30 миллионов строк. Я бы использовал fread, а не read.table. Это быстрее. Узнайте больше о здесь http://www.inside-r.org/packages/cran/data.table/docs/fread

fread(input, sep="auto", encoding = "UTF-8") 

Что касается вашего вопроса с read.table. Я думаю, что решения здесь должны решить. 'Incomplete final line' warning when trying to read a .csv file into R

Смежные вопросы