2010-06-30 5 views
2

Я ищу, чтобы оптимизировать список слов для английского языка с использованием СЭД или аналогичное приложение Линукс .. для того, чтобы сделать это, мне нужно:как оптимизировать список слов на английском языке

Удалить строки, содержащие что-нибудь кроме AZ, 0-9, или специальные символы

Удалить URLs - возможно обнаружение символом «\» долго

Удалить линии более 16 символов, а также 4-х символов или короче. (5-16 символов)

Предпочтительно в СЕПГ =)

спасибо!

+0

Вы можете использовать http://gskinner.com/RegExr/ в будущем для создания regexs. Плюс, используя его, вы научитесь делать их с нуля. –

ответ

0
sed -nr '/^[[:alnum:]]{5,16}$/p' words 
  • -n средства не печатать строки по умолчанию
  • -r средства используют 'расширенные' регулярные выражения

Команда sed является:

  • /.../, когда у нас есть то, что соответствует
    • ^...$ целая линия, состоящая только
      • [...] классовый характер:
        • [:alnum:] алфавитно-цифровых символов
      • {5,16} между 5 и 16 раз
  • p мы печатаем его
+0

есть ли способ включить пользовательские символы? – MKv4

+0

Просто включите их в класс символов, например: '[[: alnum:] {} + &%]' – porges

0
perl -ne "print if /^[a-zA-Z0-9{other allowed characters here}]{4,16}$/" 
+0

есть ли способ сделать это в sed? – MKv4

0

на основе Anon .:

egrep '^[a-zA-Z0-9{other allowed characters here}]{4,16}$' 
+0

есть ли способ сделать это в sed? – MKv4

Смежные вопросы