У меня есть корпус, который имеет такие слова, как 5k, 50k, 7.5k, 75k, 10K, 100K. Поэтому, когда я создаю TDM с использованием пакета tm, такие термины, как 10k и 100k, извлекаются отдельно. Однако 5k и 7.5k не извлекаются как отдельные термины. Теперь я понимаю, что после пунктуации коррекция «7.5k» может подпадать под термины «75k», но что происходит с «5k». Почему он не извлекается как термин?Force create Terms with tm package
В принципе, я хотел бы знать, есть ли способ для пакета FORCE tm искать конкретные слова и извлекать их в качестве ключевых терминов.
Любые указатели помогут!
Спасибо JWLM, вы предлагаете мне разбить символ в десятичной системе на две части, которые можно захватить tm? – shashankp