Викиди - в даних

Припустимо, у вас є дані. Ну, скажімо такі:

Які виглядають ось так:

Викиди - в даних

Здається, в них є деякі викиди. Тобто точки, які швидше за все є випадковими викидами, а не паттернами даних. Грубо кажучи - якщо ці дані моделювати лінійної регресією, то ці точки дуже сильно спотворять результати передбачення для безлічі інших точок. Давайте перевіримо на викиди:

Викиди - в даних

Ну точно - дві точки викиду!

Тепер найголовніше - треба від них позбудеться в даних і все буде добре.
Легко звичайно сказати, але якщо не знати як - дуже складно буде. Більш того - насправді - теорія Outliers Detection вельми глибока і розглядає величезну кількість випадків, але її застосування вимагає хорошого знання математичного і статистичного апарату.
Ми ж хочемо "по-швидкому давайте видалимо ці дві точки і все". Ну, як ви пам'ятаєте ми прийшли сюди з Ексель в кінці кінців 🙂

І такий спосіб "по-швидкому" є. І заснований він на тому, що boxplot не тільки малює картинку, але і зберігає всі її параметри в об'єкті. З якого ми можемо дістати їх. Наприклад викиди зберігаються тут: boxplot.stats (y) $ out

Давайте отримаємо індекси точок викидів в наших векторах:
ind
Збережемо координати точок викидів в окремому dataframe (взагалі не обов'язковий крок, можна було обійтися ще парою векторів)
outler
А тепер давайте перевіримо - ті взагалі точки ми знайшли?
plot (x, y, col = 'blue', pch = 20, ylim = c (0, max (y)))
points (outler $ x, outler $ y, col = 'red', pch = 19)

Викиди - в даних

Хм, як ніби все правильно.

Далі очистимо дані від викидів, перевіримо, що статистичних викидів не спостерігається і подивимося на наші нові "чисті" дані.

Викиди - в даних

Поділитися посиланням:

Хороший рада, давно користуюся цим способом. Для себе написав функцію, яка перевіряє вибірку на нормальність декількома тестами, після чого для нормально розподілених даних використовує метод «трьох сигм», для всіх інших - метод, описаний в цьому пості. Мовою R реалізується елементарно, для швидкого очищення від викидів цілком підходить. Дякую за цікавий блог!

Схожі статті