У меня есть очень большие .csv-файлы, содержащие необработанные данные. Многие поля имеют передние и конечные пробелы, и многие значения полей многословного слова, которые должны иметь только одно пространство между символьными группами/словами, имеют дополнительные пробелы, например.Обрезать файл csv с помощью командной строки
'12 Anywhere Street'
, который должен быть:
'12 Anywhere Street'
Ведущий, задней и лишние пробелы изменяются от одного дополнительного пространства до шести дополнительных пространств. Я могу загрузить файлы в свою БД и запустить скрипты, чтобы обрезать их. Ведущие и завершающие скрипты отделки отлично работают и выполняются быстро; тем не менее, скрипты для удаления лишних пробелов между словами намного дольше и требуют много времени. Было бы лучше удалить лишние пробелы между словами в необработанном CSV-файле, используя командную строку, прежде чем загружать ее в мою БД.
Мне нужно запустить функцию замены, которая заменяет любой экземпляр «» на «», «», «», ... до шести пробелов или около того. Я был бы очень признателен за помощь в этом.
Какая ОС вы используете? Linux? Пожалуйста, укажите это в своем вопросе. Также вы можете привести пример нескольких строк вашего файла данных? – Wossname
Использование окон, но может легко создать экземпляр Linux для этого. Столбцы с дополнительными пробелами между словами содержат (цитируется по полю) «имя и фамилия», «уличный адрес», «город», строка текста в формат предложения ". Некоторые таблицы/.csv-файлы имеют гораздо больше лишних пробелов, чем другие. Надеюсь, это поможет. – pbnyc
Окно сообщения автоматически удаляет пробелы. – pbnyc