ПРИМЕЧАНИЕ Прежде чем начать, эта F-мера не связана с точностью и отзывом, и ее название и определение взяты из этого paper.НЛП: Как правильно нормализовать функцию для гендерной классификации?
У меня есть функция, известная как F-мерка, которая используется для измерения формальности в заданном тексте. Он в основном используется в гендерной классификации текста, в котором я работаю как проект.
F-мера определяется как:
F = 0,5 * (существительное частоты + прилагательное Частотной + Предлог Частотных + статья Freq - местоимение частота - глагол частоты - наречие. Частота..... - частота междометий + 100)
где частоты взяты из заданного текста (например, сообщение в блоге).
Я хотел бы нормализовать эту функцию для использования в задаче классификации. Первоначально моя первая мысль заключалась в том, что поскольку значение F связано числом слов в данном тексте (text_length), я подумал о первом принятии F и делении на text_length. Во-вторых, и, наконец, поскольку эта мера может принимать как положительные, так и отрицательные значения (как можно сделать из уравнения), я тогда подумал о квадратизации (F/text_length), чтобы получить положительное значение.
Попытка этого Я обнаружил, что нормализованные значения не выглядят слишком правильными, так как я начал получать действительно небольшие значения (ниже 0,10) для всех случаев, в которых я тестировал эту функцию, и я думаю, что причина может заключаться в том, что Я возлагаю на квадрат значение, которое существенно уменьшит его с квадрата доли. Однако это необходимо, если я хочу гарантировать только положительные значения. Я не уверен, что еще нужно рассмотреть, чтобы улучшить нормализацию, чтобы получить хорошее распределение внутри [0,1] и хотелось бы знать, есть ли какая-то стратегия для правильной нормализации функций НЛП.
Как я должен подходить к нормализации моей функции и что я могу сделать неправильно?
Боковое замечание, но как вы нашли частоты предлогов/междометий/статей для текста, с которым вы работали? Похоже, что в NLTK и Stanford CoreNLP для них нет тегов POS (есть только теги, которые их объединяют). –
Если вы правильно поняли, такие данные могут быть вызваны с помощью инструментов NLP, которые автоматически подсчитывают такие данные для вас. – jablesauce