У меня есть несколько PDF, преобразованных в текстовые файлы, и я хочу найти определенную фразу, которая может быть в файлах. Моя проблема заключается в том, что преобразование между pdf и текстовым файлом не является совершенным, поэтому иногда появляются ошибки, возникающие в тексте (например, пробелы между словами, смешивание между i, l, 1 и т. Д.)Как сопоставить строки с возможными опечатками?
I было интересно, есть ли какая-либо общая техника, чтобы дать мне «мягкий» поиск, что-то, что смотрит на расстояние от хамминга между двумя терминами, например.
if 'word' in sentence:
против
if my_search('word',sentence, tolerance):
Существует библиотека для этого называемого dista nce: https://pypi.python.org/pypi/Distance/0.1 – dagrha
попробуйте googling для строковых алгоритмов расстояния – user853710