2015-02-12 3 views
0

У меня есть .txt файл со следующими данными:Text Mining с Scala

L666371 +++$+++ u9030 +++$+++ m616 +++$+++ DURNFORD +++$+++ Lord Chelmsford seems to want me to stay back with my Basutos. 
L666370 +++$+++ u9034 +++$+++ m616 +++$+++ VEREKER +++$+++ I'm to take the Sikali with the main column to the river 
L666369 +++$+++ u9030 +++$+++ m616 +++$+++ DURNFORD +++$+++ Your orders, Mr Vereker? 
L666257 +++$+++ u9030 +++$+++ m616 +++$+++ DURNFORD +++$+++ Good ones, yes, Mr Vereker. Gentlemen who can ride and shoot 
L666256 +++$+++ u9034 +++$+++ m616 +++$+++ VEREKER +++$+++ Colonel Durnford... William Vereker. I hear you 've been seeking Officers? 

Я хочу, чтобы импортировать текстовый файл в Scala (который я сделал), а затем работать над ней, извлекая все текст. После этого: tokenise, нижний регистр, игнорировать формы слова, отдельную пунктуацию, после чего я хочу узнать количество слов в форме, подобной этой: число униграмм, bigram и триграмм, сортируя результаты по наивысшему счету вверху.

Может ли кто-нибудь сказать мне, как я это реализую? У меня есть следующая попытка, но не кажется, что это будет работать:

import io.Source 
val s = Source.fromFile("movie_lines.txt")("ISO-8859-1") 
val lines = s.getLines 
val str = s.mkString 

val Pattern = "([A-Z]+.!)".r`enter code here` 

Pattern.findAllIn(str).foreach { x => println(x) } 

println ("\n This is the result\n")`enter code here` 
    } 
+0

Может ли кто-нибудь ответить? –

ответ

0

Вы можете использовать Epic библиотеки из ScalaNLP костюма для preprocesing текста (tokenizing), затем разобрать, тег и извлечение объектов.

Смежные вопросы