У меня есть набор данных, состоящий из 10^6
записей. Но проблема заключается в данных Imbalance
.Данные о дисбалансе для классификации
Я создаю линейный классификатор с помощью Adboost. Но из-за данных о дисбалансе моя точность очень низкая. Как связаться с данными дисбаланса. Я использую Graphlab
.
Вот простой код для балансировки данных:
safe_loans_raw = loans[loans[target] == 1]
risky_loans_raw = loans[loans[target] == -1]
# Undersample the safe loans.
percentage = len(risky_loans_raw)/float(len(safe_loans_raw))
safe_loans = safe_loans_raw.sample(percentage, seed = 1)
risky_loans = risky_loans_raw
loans_data = risky_loans.append(safe_loans)
Но точность до сих пор не может утверждение ли обеспечить эффективный подход к этому?