1

Я пытаюсь создать приложение для обнаружения изображений, которые являются рекламными объявлениями на веб-страницах. Как только я обнаруживаю, что я не позволю им отображаться на стороне клиента.Оптимизация входных данных нейронной сети

В основном я использую алгоритм обратного распространения для обучения нейронной сети с использованием набора данных, приведенного здесь: http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements.

Но в этом наборе данных нет. атрибутов очень высока. На самом деле один из наставников проекта сказал мне, что если вы тренируете Нейронную сеть с таким множеством атрибутов, для обучения вам потребуется много времени. Итак, есть ли способ оптимизировать входной набор данных? Или мне просто нужно использовать многие атрибуты?

ответ

5

1558 на самом деле небольшое количество функций/атрибутов. Количество экземпляров (3279) также невелико. Проблема не в стороне набора данных, а на стороне алгоритма обучения.

ANN работает медленно, я предлагаю вам использовать логистическую регрессию или svm. Оба они очень быстро тренируются. В частности, svm имеет множество быстрых алгоритмов.

В этом наборе данных вы фактически анализируете текст, но не изображение. Я думаю, что линейный семейный классификатор, т. Е. Логистическая регрессия или svm, лучше подходит для вашей работы.

Если вы используете для производства, и вы не можете использовать открытый код. Логистическая регрессия очень проста в применении по сравнению с хорошим ANN и SVM.

Если вы решите использовать логистическую регрессию или SVM, я буду в будущем рекомендовать некоторые статьи или исходный код для вас.

+0

Сэр, Моя группа проектов хотела использовать Neural Network для этого? Есть ли у меня варианты с нейронной сетью? Могу ли я получить какую-то помощь от этого? Могу ли я использовать логистическую регрессию, как алгоритмы с нейронной сетью? И что еще более важно? –

+1

Нейронные сети не являются большими пространственными проблемными пространствами. Что касается ускорения работы, попробуйте использовать графический процессор или уменьшить количество функций или примеров. В конце концов, ann является неправильным инструментом для работы. –

+0

Теперь я знаю, что ANN не будет правильным инструментом, поэтому я решил использовать SVM сейчас. Это будет здорово, если вы могли бы порекомендовать некоторые статьи о его использовании в моем проекте. Также я хотел спросить у, должен ли я сначала реализовать. PCA перед внедрением SVM. Спасибо. Ура! –

0

aplly отдельный ИНС для каждой категории функций , например 457 входов 1 выход для URL-адрес точки (ANN1) 495 входов 1 выход для origurl (Ann2) ...

затем обучить всех из них используйте другой основной ANN, чтобы присоединиться к результатам

1

Если вы действительно используете сеть обратного распространения с 1558 входными узлами и всего 3279 выборок, то время обучения является наименьшей из ваших проблем: даже если у вас очень маленькая сеть с только один скрытый слой, содержащий 10 нейронов, у вас есть 1558 * 10 весов betw een входной слой и скрытый слой. Как вы можете рассчитывать получить хорошую оценку для 15580 степеней свободы только из 3279 образцов? (И этот простой расчет даже не учитывает «проклятие размерности»)

Вы должны проанализировать свои данные, чтобы узнать, как их оптимизировать. Попытайтесь понять свои исходные данные: Какие (кортежи) функции (совместно) статистически значимы? (используйте стандартные статистические методы для этого) Являются ли некоторые функции избыточными? (Анализ основных компонентов является хорошим ориентиром для этого.) Не ожидайте, что искусственная нейронная сеть сделает это для вас.

Также: remeber Duda & Известная «беспартийная теорема» Харта: алгоритм классификации не работает для каждой проблемы. И для любого алгоритма классификации X существует проблема, когда переворачивание монеты приводит к лучшим результатам, чем X. Если учесть это, то решить, какой алгоритм использовать, прежде чем анализировать ваши данные, может не быть умной идеей. Возможно, вы выбрали алгоритм, который на самом деле работает хуже, чем слепое угадывание по вашей конкретной проблеме! (Кстати: Duda & Hart & Storks's book about pattern classification - отличная отправная точка, чтобы узнать об этом, если вы еще не прочли его.)

Смежные вопросы