Я программирую на python, и я пытаюсь очистить источник на веб-сайте. Например, я пытаюсь извлечь номер upc. Это только части страницы. Есть куча писем, цифр, символов, которые окружают upc.Извлечение части большой строки
myString = someLargeString + '<meta property=og:upc content=02276254215 />' + anotherLargeString
Я думаю, что могу извлечь его, используя много расколов, но мне интересно, есть ли лучший способ. Я немного узнал об использовании findall и регулярных выражений, но я не уверен, что это можно применить здесь. Разделить был бы лучший способ сделать это?
Любая помощь или предложения были бы весьма признательны. Большое спасибо.
Это единственное, что вы ищете? Если нет, вы можете посмотреть [BeautifulSoup] (https://pypi.python.org/pypi/beautifulsoup4). В противном случае достаточно простого регулярного выражения. –
Есть еще несколько вещей, которые я хочу очистить, но это может быть полезно. Спасибо за это. Я посмотрю. – lclankyo