Я пишу текстовый синтаксический анализатор, который должен извлекать функции из описания продукта.Как извлечь функции из обычного текста?
Например:
text = "Canon EOS 7D Mark II Digital SLR Camera with 18-135mm IS STM Lens"
features = extract(text)
print features
Brand: Canon
Model: EOS 7D
....
Как я сделать это путь обучения системы со структурированными данными и придумывают перевернутый индекс, можно привязать срок к функции. Это работает в основном хорошо.
Если текст содержит измерения, как 50ml
или 2kg
, инвертированный индекс будет говорить 2kg -> Size
и 50ml -> Size
для например.
Проблема здесь в том, что когда я получаю значение, которое я раньше не видел, например 13ml
, оно не будет обработано. Но поскольку шаблоны соответствуют размеру, мы можем пометить его как размер.
Я решил решить эту проблему, предварительно обработав маркеры, которые я получаю из текста, и ищем шаблоны, которые я знаю. Поэтому, когда идентифицируются новые шаблоны, это должно быть добавлено к предварительной обработке.
Мне было интересно, это лучший способ сделать это? Или есть лучший способ сделать это?
Спасибо. Я думал так же. –