У меня есть большой набор данных (скажем, 10 000 переменных с примерно 1000 элементами каждый), мы можем рассматривать его как 2D-список, например:Эффективный способ получить сильно коррелированные пары из большого набора данных в Python или R
[[variable_1],
[variable_2],
............
[variable_n]
]
Я хочу извлечь высококоррелированные пары переменных из этих данных. Я хочу, чтобы «сильно коррелированный» был параметром, который я могу выбрать.
Мне не нужны все пары, которые нужно извлечь, и мне не обязательно нужны наиболее коррелированные пары. Пока есть эффективный метод, который дает мне сильно коррелированные пары, я доволен.
Также было бы неплохо, если бы переменная не отображалась более чем в одной паре. Хотя это может быть не очень важно.
Конечно, есть способ грубой силы найти такие пары, но для меня это слишком медленно.
Я немного искал язык и нашел теоретическую работу по этой проблеме, но мне не удалось найти пакет, который мог бы делать то, что я ищу. Я в основном работаю на python, поэтому пакет в python будет наиболее полезен, но если в R есть пакет, который делает то, что я ищу, это будет здорово.
Кто-нибудь знает о пакете, который делает выше в Python или R? Или любые другие идеи?
Спасибо заранее
О каком количестве переменных мы говорим? –
Скажем, 10 000 переменных, каждая из которых содержит около 1000 элементов. – Akavall
Хотите поделиться указателями или резюме теоретической работы, которую вы нашли? –