Я хотел бы построить текстовый корпус для проекта NLP в Python. Я видел этот текстовый формат в запросе LSHTC4 Kaggle:Предварительная обработка текста в Python
5 0:10 8:1 18:2 54:1 442:2 3784:1 5640:1 43501:1
Первое число соответствует этикетке.
Каждый набор чисел, разделенных символом ':', соответствует паре (функция, значение) вектора, где первым номером является идентификатор функции, а второй номер - его частота (например, функция с идентификатором 18 появляется 2 раз в этом случае).
Я не знаю, является ли это обычным способом предварительной обработки текстовых данных цифровым вектором. Я не могу найти процедуру предварительной обработки в вызове, данные уже были предварительно обработаны.
так что означает начальный символ '5'? –
Это категория, которой принадлежит ваш документ, это ярлык –