У меня есть набор данных, для которого мне нужно найти

  1. если распределение нормальное
  2. Что должно точно отражать центральную тенденцию распределения между средним и медианным значением?

Следуя этому руководству - http://www.sthda.com/english/ wiki / normality-test-in-r я сделал следующее.

График плотности

enter image description here

График Q-Q

enter image description here

Тест Шапиро-Уилка

> shapiro.test(sample(df[[colName]],5000))

    Shapiro-Wilk normality test

data:  sample(df[[colName]], 5000)
W = 0.86463, p-value < 0.00000000000000022

Тест Андерсона-Дарлинга

> ad.test(df[[colName]])

    Anderson-Darling normality test

data:  df[[colName]]
A = 213650, p-value < 0.00000000000000022

Общее руководство, которое я понял, состоит в том, что если значение p> 0,05, гипотеза о том, что основное распределение является нормальным, верна.

В приведенных выше тестах я получаю значение p как p-value < 0.00000000000000022, а не точное значение. Как я это интерпретирую? Что следует использовать для обозначения центральной тенденции распределения: среднее значение или медиана?

r
1
user3206440 28 Апр 2018 в 07:21

1 ответ

Лучший ответ

На самом деле это не вопрос R - вы получите аналогичные результаты на любом статистическом языке. Тем не менее ...

В этой задаче можно допустить 2 типа ошибок. Если распределение действительно нормальное, мы можем ошибочно заключить, что распределение ненормальное. Если распределение ненормальное, мы можем ошибочно сделать вывод, что это нормально. Они называются ошибками типа 1 и типа 2 соответственно. Теперь, если распределение нормальное, у нас есть довольно хорошее представление о том, как данные будут вести себя - по крайней мере, асимптотически. Если истинное распределение не является нормальным, мы ничего не можем сказать о его поведении. Возможно, это на самом деле t-распределение с df = 100 - это будет очень похоже на нормальное, хотя технически это ненормально. Это может быть экспоненциальный, логарифмически нормальный, гамма, ... ненормальный ничего не говорит о том, что это есть , только то, что это не (это ненормально) .

Из-за этой асимметрии идея этих тестов такова:

  1. Сравните наблюдаемые данные с тем, что мы ожидали бы увидеть, если бы они действительно были нормальными. Измерьте, насколько наши наблюдаемые данные отличаются от того, что мы ожидаем увидеть.
  2. Вычислите вероятность того, что мы увидим наблюдаемую разницу по крайней мере столь же экстремальную, как то, что мы наблюдали в действительности. Это то, что мы называем значением p .
  3. Решите, достаточно ли мало наше p -значение, чтобы сделать вывод о том, что распределение не может быть на самом деле нормальным.

Здесь есть два сложных момента для тех, кто не знаком со статистикой. Во-первых, мы понимаем, почему нам нужно рассматривать «по крайней мере как экстремальные», а не просто рассчитывать вероятность того, что мы увидим наблюдаемые данные. Причина этого в том, что вероятность получить точно на любом заданном расстоянии равна 0. Нам нужно смотреть на диапазоны, чтобы получить фактические ненулевые вероятности ... и диапазон, который здесь имеет наибольшее значение, - это смотреть на вещи более экстремально.

Второй сложный момент - это вывод. Статистические тесты работают как уголовные процессы в США (или, по крайней мере, как они должны работать). Таким же образом, как обвиняемый невиновен, пока его вина не будет доказана, мы предполагаем, что нулевая гипотеза верна (нулевая гипотеза в данном случае - «распределение нормальное»). Только когда p -значение достаточно мало, мы отклоняем его и говорим, что есть достаточно доказательств, чтобы сделать вывод о ненормальном распределении. Важно отметить, что мы никогда не доказываем нулевую гипотезу . Если данные действительно следуют t-распределению со 100 степенями свободы, мы почти наверняка не сможем отвергнуть нулевую гипотезу и совершим ошибку типа 2 (сохраняя нулевую гипотезу, когда мы не должны этого делать).

Итак, это подводит нас к следующему вопросу - насколько маленький достаточно мал? Один из отцов-основателей статистики, гениальный человек по имени Р.А. Фишер решил, что 0,05 кажется правильным - и с тех пор это стандарт. Иногда вместо этого используются 0,01 или 0,1, но 0,05 встречается гораздо чаще. У этого отсечения есть важная интерпретация - это также вероятность того, что мы совершим ошибку типа 1 - неправильно отвергнем нулевую гипотезу, хотя мы не должны этого делать.

Теперь, чтобы объяснить ваши результаты. В вашем случае не имеет значения, используете ли вы 0,01, 0,05 или 0,1 - ваши p-значения НАМНОГО ниже любого из них. Фактически, они достаточно малы, чтобы компьютер мог начать сталкиваться с машинными ошибками (ошибками, которые возникают из-за того, что мы пытаемся представить несчетные наборы с использованием конечного числа компьютерных байтов) - может быть даже невозможно точно вычислить точное p -значение (а точное число почти всегда не так важно).

При таком маленьком p-значении тесты заявляют, что практически невозможно получить наблюдаемые данные из нормального распределения. Вы можете спокойно отвергнуть свою нулевую гипотезу и сделать вывод, что распределение не является нормальным.

Обновление: среднее значение по сравнению с медианой

Как сказано в комментариях, на этот вопрос нет одного правильного ответа - это действительно зависит от того, чего вы пытаетесь достичь. Часто можно увидеть совет, в котором говорится, что медиана используется для асимметричных распределений, в то время как среднее значение чаще используется для симметричных распределений. Это правда, но я бы сказал, что это больше связано с измерением изменчивости, чем со средним значением.

Для симметричного распределения одно число (например, стандартное отклонение или дисперсия) достаточно хорошо характеризует изменчивость данных. Это функция 1-го и 2-го моментов, и она хорошо сочетается с 1-м моментом (средним). Для асимметричного распределения вам нужно смотреть на левую и правую части распределения отдельно, потому что они разные. Допустим, вы зафиксировали это с помощью диапазона, который также соответствует 0-му и 100-му процентилям). Вы также можете зафиксировать это с помощью межквартильного размаха (25-й и 75-й процентили) или (что еще лучше) обоих. В конечном итоге они хорошо сочетаются с медианой (50-й процентиль).

Если ваша единственная цель - суммировать распределение, хорошо работает общее практическое правило (симметричный -> средний, асимметричный -> медиана). Если вам нужно взять свою оценку и снова подключить ее к другому анализу, тогда это определит, что вам нужно. Вы также можете рассмотреть возможность преобразований - возможно, ваше распределение сильно искажено, но это может быть нормальным для логарифмической шкалы, и тогда среднее геометрическое / стандартное отклонение может быть лучшим обобщением.

На вынос здесь: Самый большой фактор, определяющий соотношение среднего и медианного, - это то, что вы хотите, чтобы ваша аудитория понимала о данных. Дело не в том, какие данные у вас есть , а в том, что вы хотите сказать о них.

2
Melissa Key 12 Янв 2020 в 00:57