2013-11-23 3 views
0

Я только начинаю изучать регулярное выражение и использовать mapoduud. Теперь я пытаюсь запустить пример приложения mapo-do hasoop, называемый «grep», и я хотел бы найти серию таких слов, как «и», «is» «are» «the» в текстовом входном файле. Одним из входных аргументов приложения «grep» является регулярное выражение, определяющее слова, которые вы хотите найти. Предположим, я хочу искать следующие слова: «и» «есть» «есть». Может ли кто-нибудь дать мне пример того, как настроить регулярное выражение в качестве входного аргумента для grep?Регулярное выражение для поиска нескольких слов в определенной строке

Спасибо.

ответ

0

Вашего регулярное выражение должно быть:

"\ Ь (и | в | является |) \ б"

Положите в качестве регулярного выражения аргумента.

Вы можете добавить больше слов между || который является «или».

«\ b» означает границу слова, без \ b, вы можете совместить слово внутри другого слова, например: «испуганный» вместо «есть», поскольку «есть» содержится в «испуге».

1

Использование grep признается:

hadoop org.apache.examples.Grep <indir> <outdir> <regex> 

Таким образом, вы могли бы начать с чего-то же просто, как:

hadoop org.apache.examples.Grep <indir> <outdir> '(and)|(is)|(are)|(the)' 
Смежные вопросы