Я работаю над скриптом, который может загружать манга из www.mangafox.me в Java.Удалить все нечисловые символы, но сохранить определенное слово
К сожалению, на этом сайте нет API-интерфейсов, поэтому я использую некоторые архаичные способы получения моих данных. Тем не менее, можно получить xml с каждой главой манги. Например: http://mangafox.me/rss/nisekoi.xml.
Я разбираю этот xml и использую тег title
, чтобы получить номер главы и связанный том.
К примеру, у меня есть строка, как это: Nisekoi Vol TBD Ch 215
, и я хочу сохранить только TBD
и 215
.
На данный момент, я меняю все нечисловые символы с пробелами и держать каждые вхождений TBD
с помощью:
String title = "Nisekoi Vol TBD Ch 215";
title = title.replaceAll("[^0-9.\bTBD\b]+", " ").trim();
title
равен "TBD 215"
, а затем я использую title.split(" ")
, чтобы получить объем и главу.
Это прекрасно работает, пока я не сделаю то же самое с мангой, которая начинается с T. По-видимому, капитал T не заменяется пробелом.
Я не очень хорошо разбираюсь в регулярном выражении, так как я могу заменить каждый символ, который не является числом, точкой (для десятичных знаков) или словом «TBD» пробелом в Java?
Спасибо!
Если я получу вас правильно, вас интересует только номер в конце каждого заголовка, верно? Вы можете пойти за ['\\ d + $'] (https://regex101.com/r/gA1zW9/1) и затем 'TBD' +' your_number'. – Jan