У меня есть небольшая проблема с моим проектом для университета.Сборка документов с использованием генетических алгоритмов
Я должен реализовать классификацию документов с использованием генетического алгоритма.
Я имел взгляд на this пример и (позволяет говорить) понимает принципы генетических алгоритмов, но я не знаю, как они могут быть реализованы в классификации документов. Невозможно определить функцию фитнеса.
Вот что мне удалось придумать до сих пор (Его, вероятно, совершенно неправильно ...)
Признайте, что у меня есть категории, и каждая категория описывается некоторым ключевым словам.
Разделить файл на слова.
Создайте первую совокупность из массивов (например, 100 массивов, но это будет зависеть от размера файла), заполненных случайными словами из файла.
1:
Выберите лучшую категорию для каждого ребенка в населении (путем подсчета ключевых слов в нем).
Пересечение каждого из двух детей в популяции (новый массив, содержащий половину каждого ребенка) - «кроссовер»
Заполните остальные дети, оставшиеся от кроссовера, со случайными неиспользуемыми словами из файла - «evolution ??»
Заменить случайные слова в случайном дочернем элементе из новой популяции случайным словом из файла (используется или нет) - «мутация»
Скопируйте лучшие результаты в новое население.
Перейти к 1, пока не достигнут определенный предел населения, или какая-либо категория найдена достаточно раз
Я не уверен, что это правильно и мы будем рады получить некоторые советы, ребята.
Очень ценю это!
Можете ли вы уточнить, чего именно должна достичь система? Что-то вроде «Учитывая X исходных данных, вывод Y»? – sinelaw
У нас есть категории X. Система должна поместить все файлы, которые мы даем в правильной категории. –
Вам необходимо обучить систему - например, если у вас есть база данных, если предварительно классифицированные документы, генетический алгоритм может использовать ее для разработки правил классификации. – sinelaw