2017-01-20 7 views
0

У меня есть корпус, который имеет такие слова, как 5k, 50k, 7.5k, 75k, 10K, 100K. Поэтому, когда я создаю TDM с использованием пакета tm, такие термины, как 10k и 100k, извлекаются отдельно. Однако 5k и 7.5k не извлекаются как отдельные термины. Теперь я понимаю, что после пунктуации коррекция «7.5k» может подпадать под термины «75k», но что происходит с «5k». Почему он не извлекается как термин?Force create Terms with tm package

В принципе, я хотел бы знать, есть ли способ для пакета FORCE tm искать конкретные слова и извлекать их в качестве ключевых терминов.

Любые указатели помогут!

ответ

0

Вы нарушаете слова в пунктуации? То есть, есть. символ разрыва слова? Если это так, то раскол «7.5k» равен («7», «5k»), второй из которых соответствует «5k».

+0

Спасибо JWLM, вы предлагаете мне разбить символ в десятичной системе на две части, которые можно захватить tm? – shashankp

Смежные вопросы