Я разбираю PDF и получаю много строк с \t, \r, \n,\s
... И они появляются на обоих концах строки и не отображаются в порядке. Таким образом, я могу иметь
Ex:
«\t\s\t\n
Некоторые важные данные мне нужно в окружении бесполезных данных \r\t\s\s\r\t\t
»
. Есть ли эффективные способы обрезать эти строки? То, что я до сих пор, не достаточно хорошо, потому что я хочу некоторые символы .:обрезать все пробелы из строки
public static String trimToLetters(String sourceString) {
int beginIndex = 0;
int endIndex = sourceString.length() - 1;
Pattern p = Pattern.compile("[A-Z_a-z\\;\\.\\(\\)\\*\\?\\:\\\"\\']");
Matcher matcher = p.matcher(sourceString);
if (matcher.find()) {
if (matcher.start() >= 0) {
beginIndex = matcher.start();
StringBuilder sb = new StringBuilder(sourceString);
String sourceReverse = sb.reverse().toString();
matcher = p.matcher(sourceReverse);
if (matcher.find()) {
endIndex = sourceString.length() - matcher.start();
}
}
}
return sourceString.substring(beginIndex, endIndex);
}
Вы бы сделали хуже, чем вызывать 'stringInstance.replaceAll (" [[: space:]] "," ")' – hd1