Я полный питон noob, поэтому, пожалуйста, несите меня. Я хочу, чтобы python просматривал страницу html и заменял экземпляры объектов Microsoft Word чем-то совместимым с UTF-8.Некоторые основные вопросы Python
Мой вопрос в том, как вы это делаете в Python (у меня это было в Googled, но пока не найдено четкого ответа)? Я хочу окунуть мой палец в воды Питона, поэтому я считаю, что что-то простое, так как это хорошее место для начала. Кажется, что я должен был бы:
- нагрузки текста, вставленный из MS Word в переменную
- перспективе какой-то заменить функцию на содержание
- вывести его
В PHP я бы выполните следующие действия:
$test = $_POST['pasted_from_Word']; //for example “Going Mobile”
function defangWord($string)
{
$search = array(
(chr(0xe2) . chr(0x80) . chr(0x98)),
(chr(0xe2) . chr(0x80) . chr(0x99)),
(chr(0xe2) . chr(0x80) . chr(0x9c)),
(chr(0xe2) . chr(0x80) . chr(0x9d)),
(chr(0xe2) . chr(0x80) . chr(0x93)),
(chr(0xe2) . chr(0x80) . chr(0x94)),
(chr(0x2d))
);
$replace = array(
"‘",
"’",
"“",
"”",
"–",
"—",
"–"
);
return str_replace($search, $replace, $string);
}
echo defangWord($test);
Как вы это сделаете в Python?
EDIT: Хм, хорошо игнорируйте мое замешательство относительно UTF-8 и сущностей на данный момент. Ввод содержит текст, вставленный из MS Word. Такие вещи, как фигурные кавычки, отображаются как нечетные символы. Различные функции PHP, которые я использовал, чтобы исправить, не дали мне результатов, которые я хотел. Просмотрев эти нечетные символы в шестнадцатеричном редакторе, я увидел, что они соответствуют символам, которые я использовал выше (0xe2, 0x80 и т. Д.). Поэтому я просто поменял символы с нечетным символом на объекты HTML. Итак, если бит, который у меня выше, есть UTF-8, то, что вставлено из MS Word, которое вызывает нечетные символы?
EDIT2: Итак, я решил немного узнать о Python и нашел, что я действительно не понимаю кодировку. Проблема, которую я пыталась решить, может быть решена просто за счет наличия непоследовательной кодировки от конца до конца. Если входной формой является UTF-8, база данных, в которой хранится вход, - UTF-8, а страница, которая выводит ее, - UTF-8 ... вставка из Word работает нормально. Никаких специальных функций не требуется. Теперь об обучении небольшому Python ...
+1: "defangWord()" ... Мне это нравится! :-) –