1

Я заинтересован в кластеризации двумерных входных данных, имеющих 1-D выход, основанный на зависимости между зависимой переменной и независимыми переменными. Например, если 2-независимые измерения являются x, y, а зависимая переменная равна z, а соотношение между (x, y) и z отличается в разных областях xy-пространства; Я хотел бы скопировать данные таким образом, чтобы регионы в xy-пространстве, которые имеют те же функциональные отношения с z, попадают в один кластер. Функциональные соотношения, которые могут существовать между xy-пространством и z, неизвестны априори.Данные кластеризации на основе шаблонов отношений между независимой переменной и зависимой переменной (-ами)

Было бы здорово, если бы кто-то предоставил мне указания/рекомендации о том, какие методы машинного обучения существуют там, которые могут быть использованы как есть или изменены для соответствия этой проблеме.

ответ

3

На этот вопрос нет хорошего ответа, поскольку это основная концепция всего поля гибридизации между методами кластеризации и классификации. В результате были предложены десятки подходов, начиная от кластеризации исходных данных (всего пространства XYZ в вашем случае) путем независимого анализа возможного поведения моделей классификации в каждом кластере для полного слияния обоих процессов в одной большой проблеме оптимизации. По моему мнению, это почти так же широко, как и запрос «У меня есть данные в форме (x, f (x)) и вы хотите восстановить« f », как мне это сделать?»

Таким образом, ссылки будут относиться к поиску любых связанных с кластерами и классификационными гибридами, так как проблема, о которой вы просите, эквивалентна поиску хорошей кластеризации для моделирования (частично) независимых задач классификации/регрессии.

Конечно, если вы знаете что-то о форме этого функционального отношения, тогда вся проблема может быть довольно легко решить. Например, если вы знаете, что ваши функциональные отношения являются более или менее гауссовой функцией, вы можете просто подобрать некоторую гауссовскую модель смеси для ваших данных. И вообще ЭМ (максимизация ожидания) будет хорошим выбором, учитывая некоторые знания о функции.

Смежные вопросы