2016-09-06 4 views
0

У меня есть файл журнала с записями, как этотне в состоянии разобрать файл с помощью Java API Спарк

10.28 INFO [EFKLogger] - POGUpdateTenestenerServiceImpl: Entering listener with object 624866045533 

Теперь с помощью искры я хочу, чтобы подсчитать количество очередей, чтобы ударить каждый час. Очередь - POGUpdateTenestenerServiceImpl. Теперь я хочу JAVARDD, который содержит только время и очередь, поэтому я могу выполнить операцию над ним. Я - новая лучшая искра и только нашел способы создать RDD со всеми словами или целую линию. Мне нужно только два слова из строки. Как я могу добиться этого

ответ

1

Вы должны использовать textFile функцию SparkContext для чтения файла:

Вот пример Scala, он может быть легко переведены на Java

val text = sc.textFile("data.csv") //Read the file 
val words = text.map(line=> line.split(" ")) //Break the line to words 

Теперь слова является массив слов, вы можете взять первую секунду и делать с ними все, что хотите.

+0

Спасибо, я все равно использовал функцию карты. Ваше решение работает также –

Смежные вопросы