Какво е ненормално?
Аномалиите могат да бъдат идентифицирани графично, чрез визуална проверка на графика на данните. Те могат също така да бъдат идентифицирани числено чрез изчисляване на мярка за статистическо отклонение, като z-резултат или стандартизиран остатък.
Наличието на аномалии в набор от данни може да окаже влияние върху резултатите от статистическия анализ и е важно да се вземе предвид тяхното потенциално въздействие при извършване на анализ на данни. В някои случаи може да се наложи аномалиите да бъдат премахнати от набора от данни преди анализа, докато в други случаи те могат да бъдат запазени като ценни информационни точки.
Ето някои често срещани примери за аномалии:
* В набор от данни за резултати от тестове на ученици необичайно висок резултат може да се дължи на измама, докато необичайно нисък резултат може да означава ученик, който не е бил подготвен за теста.
* В набор от данни за продажби необичайно високата продажба може да се дължи на специална промоция или еднократна разпродажба, докато необичайно ниската продажба може да означава магазин, който изпитва проблеми.
* В набор от медицински данни необичайно високо или ниско показание може да означава медицинско състояние, което изисква допълнително изследване.
Важно е да се отбележи, че не всички аномалии са резултат от грешки или необичайни наблюдения. В някои случаи аномалиите могат да бъдат причинени от законни промени в основната популация. Например, в набор от данни за цените на акциите, необичайно високата цена може да се дължи на положителен отчет за приходите, докато необичайно ниската цена може да се дължи на лоши новини.
Следователно е важно внимателно да се проучат аномалиите, преди да се направят каквито и да било заключения относно тяхното значение.