Я пытаюсь попасть в машинное обучение, и поэтому я хотел попробовать классифицировать текст по твитам. Я собрал небольшой образец твитов, но для выполнения любого контролируемого обучения мне нужно передать ярлык некоторым твитам, которые я собрал. Это сложная задача, когда я увеличиваю свои данные.Твиты классификация
Есть ли способ выполнить классификацию, если бы я не маркировал большое количество твитов? Или неконтролируемое обучение лучше для этой задачи?
О том, какой процент данных должен быть присвоен вручную, чтобы получить достойную точность для многоклассов классификация? Поскольку твиты настолько разнообразны, я предполагаю, что должно быть не менее 10 классов. – user3666471
Извините, я не уверен в этом. Но я помню, как я читал пример, в котором было отмечено всего 2 наблюдения, и использовалось полуконтролируемое обучение. Так что, возможно, если вы начнете с 10, то использование только нескольких наиболее значимых классификаций, а затем повторение, может сделать все. – DatamineR