Вы будете нуждаться, чтобы начать с определения «текст шума» более эффективно. Определение проблемы - сложная часть здесь. Вы не можете написать код, который скажет: «Избавьтесь от строк, которые похожи на _____». Похоже, что шаблон, который вы идентифицировали, представляет собой «последовательный набор из трех символов в строке, и набор повторяется хотя бы один раз, но может не заканчиваться чисто (он может заканчиваться на символе из середины набора)».
Теперь напишите регулярное выражение, соответствующее этому шаблону, и протестируйте его.
Но я держал пари, есть и другие модели, которые вы ищете ...
Разрешить пользователям stackoverflow.com с 3k rep удалить их? – bmargulies
+2 bmargulies :-) –