2014-05-22 4 views
0

Я пытаюсь попасть в машинное обучение, и поэтому я хотел попробовать классифицировать текст по твитам. Я собрал небольшой образец твитов, но для выполнения любого контролируемого обучения мне нужно передать ярлык некоторым твитам, которые я собрал. Это сложная задача, когда я увеличиваю свои данные.Твиты классификация

Есть ли способ выполнить классификацию, если бы я не маркировал большое количество твитов? Или неконтролируемое обучение лучше для этой задачи?

ответ

0

Методы обучения, основанные на методе супервизора, были созданы для таких проблем. Самый простой подход заключается в том, что вы вручную маркируете несколько наблюдений, управляя контролируемым алгоритмом обучения по помеченным данным, чтобы выбрать классификатор для маркировки других наблюдений, и это повторяется.

+0

О том, какой процент данных должен быть присвоен вручную, чтобы получить достойную точность для многоклассов классификация? Поскольку твиты настолько разнообразны, я предполагаю, что должно быть не менее 10 классов. – user3666471

+0

Извините, я не уверен в этом. Но я помню, как я читал пример, в котором было отмечено всего 2 наблюдения, и использовалось полуконтролируемое обучение. Так что, возможно, если вы начнете с 10, то использование только нескольких наиболее значимых классификаций, а затем повторение, может сделать все. – DatamineR

0

Твиты - это короткий текст. Вы должны попробовать классификатор специально для короткого текста классификации, как LibShortText: https://www.csie.ntu.edu.tw/~cjlin/libshorttext/

Эта статья объясняет некоторые свойства короткого текста (название) против полнотекстового классификации: https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf

Классификация всегда участвующие меченых данных (активный методы обучения помогают с маркировкой наборов данных), но вы можете воспользоваться новыми новыми технологиями, такими как Snorkel (программирование данных), чтобы облегчить некоторые проблемы: https://github.com/HazyResearch/snorkel

Смежные вопросы