У нас есть тысячи файлов, сохраненных в одном каталоге. Обычная картина - дата. Например:Извлечь имя файла до первой строки
foo-2013-09-01.gz
bar-2013-09-01.gz
fu-2013-09-02.gz
ba-2013-09-02.gz
cat-2013-09-01.gz
dog-2013-09-02.gz
dog-2013-09-03.gz
Как мы можем получить список уникальных имен файлов непосредственно перед первой тире? Например.
foo
bar
fu
ba
cat
dog
Мы не беспокоили с именами путей, но только первая часть (если вы можете увидеть это в формате типа-date.filext). Мы намерены использовать конечный результат в цикле for, который создаст подкаталог для каждого типа, который имеет все остальные файлы по дате.
Как это соотносится с Hadoop? – Tariq