Мне нужно предварительно обработать необработанные данные на основе твитера (около 1 ГБ текстового файла). После предварительной обработки (которая включает удаление стоп-слов, специальных символов, URL-адресов), я буду выполнять индексирование на них с помощью lucene.Pre-Processing/Sanitizing Данные Twitter
Может ли кто-нибудь из вас предложить лучший способ для дезинфекции твитов?
Ниже приведен пример данных:
60730027 6298443824 thank you echo park. you've changed A LOT, but as long as I'm getting paid to make you move, I'm still with it! 2009-12-03 02:54:10
60730027 6297282530 fat Albert Einstein goin in right now over here!!! 2009-12-03 01:35:22
60730027 6283122724 SATURDAY NIGHT AT THE TAVERN: http://yfrog.com/4aka3cj 2009-12-02 16:21:40
60730027 6283105517 FRIDAY NIGHT AT THE GRIFFIN: http://yfrog.com/3glqzj 2009-12-02 16:21:04
Первый номер столбца соответствует местоположению пользователя. Однако я не уверен, что соответствует номер второго столбца.
Для Санобработки данные, я бы заменить коды местоположения пользователя с названиями городов, удалить временные метки, удалить стоп-символы, адрес и т.д.
Пожалуйста, предложите о том, как идти об этом.
Заранее благодарен!
Поделитесь несколькими примерами данных для ясности (они, наверное, json), и каков ваш план. В противном случае вы получите только ответы на основе мнения, если таковые имеются. – blackSmith
Привет @blackSmith, я обновил его. – Saurabh
Сколько может быть «код пользователя»? в порядке 6E8? – blackSmith