Краткое руководство по статистике
В данном руководстве в простой и доступной форме объясняются основные понятия статистики.
Данные - это значения, полученные в ходе наблюдений или измерений.
Статистические характеристики описывают отдельные свойства выборки популяции. Примерами статистических характеристик могут быть число попаданий в цель известного игрока в бейсбол, общий средний балл выпускников школы, поступающих в медицинский колледж, либо средний уровень дохода жителей штата Индиана.
Описательная статистика и статистика выводов
Описательная статистика, которую также называют сводной статистикой, выполняет функцию систематизации или обобщения эмпирических данных. Оценка численности населения каждой страны в мире в 2012 г. или среднее количество детей в американских семьях - примеры описательных статистических параметров.
Статистика выводов, или индуктивная статистика, позволяет строить предположения относительно генеральной совокупности на основе случайной выборки. Так, например, результаты опроса общественного мнения, в которых участвует какая-то часть населения, часто переносятся на генеральную совокупность (население в целом).
Популяция - все возможные интересующие исследователей значения или все точки данных, например, все жители Земли составляют ее популяцию. Популяция может состоять не только из людей, а из чего угодно, например, это могут быть все продукты в супермаркете, или список значений роста школьников отдельной школы.
Выборка - часть популяции. Выборка должна быть репрезентативной, т.е. она должна представлять популяцию. Выборка иногда используется для обозначения единого измерения или наблюдения. Обычно одна выборка соответствует одной записи в таблице.
Формирование выборки - процесс создания выборки.
Смещенная выборка - это выборка, которая не в полной мере представляет популяцию. Смещенная выборка может привести к неверным статистическим выводам.
Количественные и качественные типы данных
Количественные данные представляют собой числовые значения. Например, высота и вес, сумма в валюте, биржевой курс, количество предметов и продолжительность работы аккумулятора вашего телефона в часах.
Качественные данные представляют собой нечисловые значения. Например, пол, страна проживания, тип автомобиля, производитель телефона, цвет глаз.
Значения также можно называть переменными или атрибутами, а в таблице данных значения представляются в виде колонок. Колонки также иногда называют свойствами, характеристиками или измерениями.
Дискретные и непрерывные переменные
Количественные переменные далее делятся на дискретные и непрерывные переменные.
Дискретные переменные могут принимать только определенные значения. Например, любой список целых чисел - это список дискретных значений, например, количество детей в семье: их может быть 0, 1, 2, 3 и больше, но не может быть 2,5 ребенка.
Непрерывные переменные могут принимать любые значения из некоторого диапазона. Примерами непрерывной переменной является рост взрослого человека (например, от 140 до 230 см), фактическая масса буханки хлеба (например, от 750 до 830 г).
Непрерывные значения всегда имеют ограниченный диапазон, т.е. промежуток, в котором располагаются все наблюдаемые значения. Он определяется путем вычитания минимального значения из максимального.
Уровни измерений
Существует четыре уровня измерений: номинальный, порядковый, интервальный и пропорциональный. Эти уровни расположены по порядку от абстрактных измерений, которые ограничивают наши действия со статистическими данными, до более конкретных измерений, к которым можно применить все многообразие статистических методов.
Номинальные значения - это значения, которые можно классифицировать и подсчитать. Например, мы можем посчитать, сколько синих фломастеров находится в коробке. Однако значения не имеют конкретного порядка. Мы не можем утверждать, что за синими фломастерами следуют коричневые, а далее - красные. Не существует понятия величины цвета. Кроме того, номинальные значения считаются взаимоисключающими и исчерпывающими. Цвета фломастеров являются взаимоисключающими, поскольку один фломастер может и должен быть одного из цветов в коробке. Он должен быть либо синим, либо коричневым, либо желтым и так далее, но он не может быть одновременно синим и коричневым. Каждый член популяции относится только к одной категории. Каждый фломастер в коробке должен иметь цвет. Каждый член популяции (или выборки) должен появится в одной из номинальных категорий цвета.
Порядковые значения похожи на номинальные, но они могут быть упорядочены. Например, предположим, что ребенок отметил каждый фломастер в зависимости от того, насколько близко он находится к его любимому цвету, т.е. исходя из его эмоциональной оценки цветов. Мы можем использовать категориальные значения, например, любовь, симпатия, нейтральное отношение, неприятие, ненависть. Обратите внимание на порядок. Любовь более значима, чем симпатия, в списке она предшествует симпатии. Имеется возможность сравнить значения друг с другом, чтобы ранжировать значения от самого высокого до самого низкого, от лучшего до худшего, и так далее. Здесь также не применяется понятие величины, невозможно определить расстояние между значениями. Разница между симпатией и любовью к чему-либо может быть огромной, но расстояние между симпатией и неприятием иногда может быть относительно небольшим. Например, мы не можем вычесть симпатию из любви. Порядковые значения также являются взаимоисключающими и исчерпывающими.
Интервальные значения - это значения, которые похожи на номинальные и порядковые, но здесь имеется понятие расстояния между значениями, где расстояние между каждыми значениями является постоянным. Например, можно утверждать, что прогноз погоды на понедельник - 50 градусов, на вторник - 55 градусов и на среду - 60 градусов по Фаренгейту. Разница между температурами одинакова, независимо от положения температуры на шкале. Например, разница между понедельником и вторником равна 5 (55-50). Мы знаем, что один градус - это постоянная единица измерения. Интервальные значения являются взаимоисключающими, исчерпывающими, упорядоченными и находятся на одинаковом расстоянии друг от друга.
Значения пропорций являются наиболее конкретными измерениями и имеют наибольшее практическое значение. Пропорциональные значения имеют все свойства интервальных значений, однако 0 означает отсутствие измерений, и мы можем сравнивать значения пропорционально. Например, можно сказать, что рост ребенка в два раза меньше роста отца или матери. Можно сказать, что ваша зарплата в два раза больше зарплаты вашего коллеги.
Распределение
Распределение - это организация значений переменной, демонстрирующая их наблюдаемую или теоретическую частоту встречаемости.
Нормальное распределение - это тип распределения, который характеризуется воронкообразной симметричной кривой с локализацией в середине. Случайные распределения определяются двумя параметрами: средним (m, мю) и стандартным отклонением (s, сигма). Многие типы данных удачно аппроксимируются с помощью случайного распределения. Большая часть этих тестов работает хорошо даже тогда, когда распределение является только приблизительно случайным. Случайное распределение обычно называют воронкообразной кривой.
Меры центральной тенденции
Меры центральной тенденции - различные способы осмысления центральной или средней позиции группы наблюдений, чисел и т.д. Они служат сводными количественными характеристиками, обеспечивающими наилучшее описание множества наблюдений или оценок одним единственным числом. Существует множество мер центральной тенденции, среди которых наиболее часто встречаются медиана, среднее арифметическое и мода.
Медиана - это статистическая мера, означающая центр набора данных. Она представляет собой такое значение, которое делит данные пополам. Согласно определению, медиана - это такое число выборки, что ровно половина из элементов выборки больше него, а другая половина меньше него. Чтобы рассчитать медиану самостоятельно, отсортируйте данные от самого низкого до самого высокого значения и: (1) для нечетного числа наблюдений найдите центральное значение, (2) для четного числа наблюдений найдите значение, которое находится ровно посередине двух центральных значений (сложите два значения и получившуюся сумму разделите на 2). При симметричном распределении (одном из нормальных распределений) медиана равна среднему значению. Для распределения, которое имеет перекос вправо (влево), медиана обычно меньше (больше) среднего значения.
Среднее значение - это среднее арифметическое значение, или сумма всех значений, разделенная на число значений.
Мода - значение, которое в ряду значений встречается наиболее часто. Например, в ряду значений 1, 2, 3, 3, 4, 5 мода равна 3. В ряду значений A, B, C, D, D, E, E, E, F мода равна E.
Статистическая значимость
Статистическая значимость - определение вероятности того, что данные исследования получены случайно, а не в результате экспериментальных манипуляций или переподгонки.
Дисперсия
Дисперсия - это мера того, насколько разбросанным является набор данных, т.е. насколько велико отклонение в наборе данных. Полученное значение всегда будет больше или равно нулю, при этом чем больше разброс, тем больше будет значение. Если все значения данных идентичны, то дисперсия равна нулю. Квадратный корень дисперсии называется стандартным отклонением. Поскольку стандартное отклонение измеряется в тех же единицах, что и данные, оно используется чаще, чем дисперсия.
ANOVA расшифровывается как analysis of variance - дисперсионный анализ. Этот метод широко используется для того, чтобы определить источник потенциальных проблем в процессе расчетов и определить, происходит ли вариация в измеряемых выходных значениях в связи с вариативностью производственных процессов или внутри них. Изменяя факторы в предварительно заданной модели и анализируя выходные данные, можно использовать статистические техники и выполнить точную оценку того, что является причиной вариации в производственном процессе. В этой процедуре используется F-статистика, которая проверят статистическую значимость различий в полученных средних значениях двух или более случайных выборок из данной популяции.
Вариация - это описательная статистика, которая показывает, как сильно точки в наборе данных обычно отличаются от среднего значения в этом наборе данных. Представьте, что вы только что вернулись из лаборатории и держите в руках набор данных, о которых вам не терпится рассказать вашему преподавателю психологии. Подумайте немного о том, какая информация может быть более интересна вашему преподавателю. Чтобы описать любой набор данных, сначала вам нужно получить некоторую меру центральной тенденции. Этой мерой может быть среднее значение, мода или медиана. Возможно, это будет и среднее значение, но оно дает только начальное описание набора данных. Фактически оно сообщает вам типичное значение для вашего набора данных, но не говорит вам о том, насколько другие значения отличаются от этого среднего значения. Это происходит потому, что два набора чисел могут иметь схожие средние значения, но фактически сильно отличаться друг от друга.
F-отношение - это отношение двух независимых оценок дисперсии случайного распределения. Во многих случаях эту меру также называют F-распределением. F-распределение - это непрерывное статистическое распределение, которое выявляется при проверке того, имеют ли две рассматриваемые выборки одну и ту же дисперсию. Другими словами, F-отношение используется для того, чтобы определить, равны ли дисперсии в двух независимых выборках одинаковыми. F-отношение иногда называют дисперсионным отношением. Оно используется в дисперсионном анализе в качестве критерия значимости и в этом смысле известно как F-тест. Если мы возьмем две выборки, то F-отношение рассчитывается путем деления степеней свободы выборки с большей дисперсией на степени свободы выборки с меньшей дисперсией. Буква "F" есть сокращение от Fisher, сэр Рональд Эйлмер Фишер (Р.Э. Фишер) - который впервые применил такой критерий в анализе результатов сравнительных исследований (исследований, сравнивающий две или более выборки).
Стандартное отклонение - статистическая мера, которая означает вариативность или дисперсию набора данных. Она рассчитывается из отклонений (расстояний) между каждым значением данных и средним значением выборки; часто обозначается буквой "s". Чем больше разброс в данных, тем больше стандартное отклонение. Стандартное отклонение в квадрате называется дисперсией. Для данных из случайного распределения примерно 68% всех данных будут попадать в одно стандартное отклонение среднего значения выборки, 95% всех значений будут попадать в пределы двух стандартных отклонений, а 99,7% всех данных будут попадать в пределы трех стандартных отклонений. Для данных из любых распределений как минимум 75% всех значений будет попадать в пределы плюс-минус двух стандартных отклонений, а минимум 89% - в пределы трех стандартных отклонений.
Изменчивость - статистическая мера, предназначенная для описания рассеивания или разброса распределения численности. Применительно к климату, изменчивость означает изменение погодных условий относительно некоторой отправной точки (например, отклонение температуры от некоторого среднего значения).