Я пытаюсь сгенерировать список частоты слов из .txt-файла, я не хочу, чтобы некоторые ASCII-печатные символы и все расширенные символы ASCII вносили вклад в слово частотный список. Вот мой обобщенный код:Удаление расширенных символов ASCII из TXT-файла Linux Terminal
cat file.txt | tr -d '[:punct:]' | tr -d '[:digit:]' | tr -d '\33-\64\91-\96\123-\255' | tr ' ' '\n' | tr 'A-Z' 'a-z' | sort | uniq -c | sort -rn > Freq.list
Кроме того, я первоначально пытался сегмент: tr -d '[:special:]'
но получил ошибку: Tr: недопустимый символьный класс special
Ключевой частью кода, который я хочу, чтобы также сделать убедитесь, что символы рядом друг с другом удалены, например: «•
Наконец, существует ли способ удалить одинарные котировки, прилагаемые к слову? .. Такой, что «слово или«слово может внести свой вклад в слово я пытался tr -d "\""
и tr -d '\33-\64'
для этого, но не похоже на работу
Вот пример file.txt:
фунтов стерлингов, является удельная теплоемкость на единицу объема, «•«и кр ,, соответственно тепловая и электрическая проводимость нормальной области»
Какой я хочу выход как:
3 объема
2 и
1 единица
тепловая
1 удельная
1 соответственно
1 регион
1 за
1 нормальный
1 тепла
1 электрический
1 проводимость
1 являются
Можете ли вы показать пример 'файла. txt' и ваш ожидаемый результат? – hek2mgl
добавил .txt и желаемый вывод в исходное сообщение –