БлогNot. Глядя на очередную гауссиану...

Глядя на очередную гауссиану...

Не будучи большим специалистом по статистике, я очень часто видел именно подгон результатов под гауссиану.

Ну, вбили нам в головы, что если имеем результат воздействия множества факторов, одиночный вклад любого из которых незначителен, то это нормальное распределение.

На самом деле, едва ли распределены нормально уровни зарплат среди жителей города, сами жители по поверхности планеты, коэффициенты IQ среди населения, размеры файлов на диске, уровни котировок на биржах и ещё миллионы других случайных величин.

Самое очевидное отличие - реальные распределения куда более "хвостаты", чем теоретическое нормальное, то есть, у них больше отклонений от среднего, чем должно было быть для нормального распределения и они асимметричны, обычно вправо. И никаких трёх сигм не бывает :)

Можно попробовать распределение Пуассона, но оно, как и все распределения, удовлетворяющие центральной предельной теореме, быстро сходится к нормальному при увеличении объёма обрабатываемых данных. Используют в приложениях логнормальное и логистическое, особенно на биржах...

А что ещё?

Требовать, чтоб распределение обязательно было устойчивым, то есть, масштабировалось? Так нормальное вроде и так устойчиво.

Наверное, эта проблема ещё ждёт своего решения :)

Пример в тему: представьте себе типовой психологический тест. Там есть список вопросов, ответы на которые соответствуют определённым количествам баллов. Затем баллы суммируются, и, в зависимости от полученной суммы, испытуемого причисляют к той или иной категории.

Из центральной предельной теоремы следует, что если вопросы не имеют никакого смысла и никак не соотносятся с категориями, к которым причисляют испытуемых, а ответы испытуемых случайны (то есть, тест полностью фальшивый), то распределение сумм набранных баллов окажется близким к нормальному, при этом большинство испытуемых будут причислены к некой средней категории.

Поэтому никакого способа отличить бессмысленный тест от осмысленного не существует, а если вы оказались "посередине шкалы", возможно, это сработало нормальное распределение, а сам тест ничего не значит.


теги: статистика тест наука

06.04.2016, 10:34; рейтинг: 4014