Владимир Савельев «Статистика и котики»
Полезные книги
Просмотров: 5335
Дата публикации: 17 февраля 2019 г.

Автор

Владимир Савельев — психолог, преподаватель, автор нескольких книг. Ведущий практических занятий по математической статистике для психологов.

Сложность изложения

2 из 5. Рекомендуется в том числе школьникам и студентам.

Целевая аудитория

Все, кто хочет узнать о статистических коэффициентах на смешных примерах из жизни котов.

Зачем читать

Далеко не все любят статистику, считая ее сухой и безжизненной либо совершенно бесполезной дисциплиной. Автор уверяет, что базовая статистика бывает замечательной, поскольку каждый коэффициент обладает силой, раскрывающей закономерности нашей действительности. Он показывает это на примерах из жизни котиков, которые развлекают и обучают нас.

Читаем вместе

Котики могут быть большими и маленькими, длиннохвостыми и бесхвостыми, остроухими и коротколапыми. Нам нужно разобраться, как выглядит типичный котик.

Здесь мы выбираем такое свойство, как размер: тот, что встречается чаще остальных, называется модой. Если поставить больших и маленьких котиков в ряд, то в середине мы обнаружим кота, обладающего типичным размером — медианой. Если поделить сумму размеров всех котиков на их количество, мы получим их среднее значение. Крупный котик, приближающийся размером к слоновьему, или маленький размером с муравья сдвигают среднее значение в бóльшую сторону. Это называется выбросом, существенно искажающим наше представление о котиках. Чтобы избавиться от него, нужно убрать 5 или 10% самых больших и самых маленьких котиков и посчитать среднее от оставшихся. Это будет называться усеченным средним.

Помимо типичных, есть разнообразные котики, и здесь мы используем меры изменчивости:

1. Размах — это разность между самым большим и самым маленьким котиком. Мы отсекаем 25% самых больших и 25% самых маленьких котиков и находим межквартильный размах для оставшихся.

2. Дисперсия и стандартное отклонение — это еще две меры изменчивости. Если размер условного Барсика отличается от среднего котика, мы получаем большое отклонение.

Для описания группы котиков используются среднее значение и среднеквадратическое отклонение: примерно 68% котиков обитают в пределе одного среднеквадратического отклонения от среднего, и они обладают нормальным размером, в отличие от оставшихся 32%.

Все котики на свете являются генеральной совокупностью, а их небольшое количество — выборкой. Автор выделяет три группы визуализации данных:

1. В первой котики распределяются в таблице частот: в одном столбике указывается их размер или иное свойство, в другом — количество котиков при исходном размере.

2. Во второй отображаются два котиковых свойства (например, размер и мохнатость).

3. В третьей на графике ставится точка как место нахождения среднего котика, и проводятся линии, длина которых направляет на величину стандартного отклонения.

Котики и песики иногда бывают похожи по экстерьеру, но различаются мяуканьем и лаяньем. Здесь мы используем меры различий, чтобы показать отличие типичного песика от типичного котика. T-критерий Стьюдента для несвязанных выборок позволяет оценить вариативность их средних размеров. Для расчета этого критерия из среднего размера собачек мы вычитаем средний размер котиков и делим на стандартную ошибку этой разности.

С помощью котиковой выборки мы можем измерить число степеней свободы. Когда мы вычисляем какие-то статистические критерии, нам нужно понять, на самом ли деле коты и псы отличаются по размеру. Сначала выдвигается нулевая гипотеза, говорящая о том, что нет, они ничем не отличаются. Затем вычисляется вероятность получения значения критерия, большего или равного обнаруженному. Это носит название «p-уровень значимости». Если он меньше 5%, то мы отвергаем нулевую гипотезу и принимаем альтернативную, согласно которой котики и песики отличаются друг от друга.

Дисперсионный анализ мы используем тогда, когда добавляем слоников и хотим понять, связан ли размер с биологическим видом. Нулевая гипотеза предполагает, что животные равны по размеру, альтернативная — что один из видов точно отличается от других. В теории мы можем обнаружить как упитанного котика, так и маленького слоника. На разнообразие размеров влияют как принадлежность животных к определенному виду, так и случайные факторы, например питание. Котики обожают мясную диету, а слоники грустят и голодают на ней. Здесь мы подключаем двухфакторный дисперсионный анализ, который разбивает дисперсию на четыре части, отвечающие:

1. За влияние вида на размер.

2. За влияние диеты.

3. За взаимодействие размера и диеты.

4. За наличие левых причин.

Если взять для примера критерий Фишера, то мы обнаружим, что при его большем значении влияние того или иного фактора оказывается сильнее. Котики лучше растут на мясной диете, слоники на ней чахнут, а песикам все равно, что есть. Форма диеты, как правило, не влияет на средний размер каждого животного.

Чтобы понять, чем лечить внезапно заболевшего котика, нам нужны меры различий для связанных выборок. Их нулевая гипотеза говорит о том, что после приема лекарств состояние котиков останется прежним. T-критерий для связанных (зависимых) выборок позволяет высчитать разности между самочувствием каждого котика до и после приема лекарства, и найти их среднее значение. Чем оно больше, тем лучше или хуже состояние котиков. Дисперсионный анализ с повторными измерениями нужен для регулярной сдачи анализов, чтобы удостовериться, что состояние котиков от пробы к пробе остается неизменным.

Корреляционный анализ мы применяем в случае радования котиков всякими приятными вещами: вкусной едой, играми или разрешением поточить когти об диван. Есть линейная положительная и линейная отрицательная связь: в первом случае мы проверяем взаимосвязь счастья котика и размера его ежедневных порций; во втором случае мы узнаем, становится ли он более несчастным, если ему предлагают больше еды. Нулевая связь показывает полное равнодушие к размеру порции — лишь бы еда была вкусной. Можно допустить следующее:

1. Большие котики всегда счастливее.

2. Хорошее настроение стимулирует у них выработку гормона роста.

3. Качество и количество корма являются условием хорошего настроения.

4. Это может быть обычным совпадением, поэтому нужно проводить экспериментальное исследование.

Регрессионный анализ необходим для отслеживания силы изменения одной переменной под воздействием другой. Он одновременно работает с большим количеством переменных. Произведя глобальный замер котиков на предмет доставления им какой-либо вещью счастья и прогнав данные через регрессионный анализ, мы получим его истинную формулу. В ней не всегда причины находятся справа, а следствие — слева. Котиков может сделать счастливыми еда, или у счастливых котиков просто хороший аппетит.

Дискриминантный анализ и логистическая регрессия дают возможность примерно понять, является ли данный конкретный котик счастливым или нет. Логистическая регрессия использует логарифм шанса, который рассчитывает вероятность счастья конкретного котика. Альтернативным методом выступает дискриминантный анализ. Мы не можем собрать счастливых Барсиков по одну сторону границы, а несчастных голодающих Мурзиков по другую: здесь количество еды никак не связано с уровнем счастья. Дискриминантный анализ занимается поиском этой границы и может работать еще с несколькими группами котиков.

Наконец, кластерный анализ позволяет рассортировать котиков по выделенным группам, предсказать, какой кот будет счастливым, а какой — несчастным. Иерархическая кластеризация дает возможность работать с огромным количеством переменных, вычислять степень их похожести, объединять котиков в группы по принципу «ближайшего соседа». На выходе мы получаем дендрограмму, по которой определяем деление котиков на группы и их принадлежность к каждой из них.

За каждой котиковой склонностью стоит некая скрытая причина, которая является особой чертой его характера. Автор называет ее царапучестью: чем она выше, тем больше котики дерут диваны и людей. Эти причины выявляются с помощью факторного анализа с расчетом корреляционной матрицы, замены переменных факторами. Получается факторная матрица с факторной нагрузкой на каждую переменную. Затем матрица вращается: ее большие коэффициенты корреляции увеличиваются, маленькие уменьшаются. Тогда каждый фактор остается связанным только с конкретной группой переменных.

Лучшая цитата

«Старая система образования выдает порцию неинтересных и бесполезных знаний. А котики обучают, развлекая».

Чему учит книга

— Если рассматривать роль статистики в бизнесе, то она позволяет экономить денежные средства и исследовать новые рынки, что подпитывает наши амбиции и делает жизнь немного лучше.

 

От редакции

Тем, кто хочет разбираться в статистических тонкостях и не давать вводить себя в заблуждение, будет полезна книга «Как лгать при помощи статистики». Ее автор — американский писатель Дарелл Хафф раскрывает секретные инструменты статистиков, учит критически мыслить и относиться к цифрам не как к сакральному знанию: https://psy.systems/post/darell-xaff-kak-lgat-pri-pomoschi-statistiki.

Обучать на живых примерах, развлекая при этом, а не заставляя заучивать ненужную информацию, — далеко не каждая школьная программа ориентирована на это. О том, что такое хорошая школа, рассуждает психолог Ольга Юрковская: https://psy.systems/post/ne-vse-skoly-odinakovo-polezny.

Если при выборе домашнего питомца вы склоняетесь в сторону не котика, а песика, советы Анны Храпуненко будут как нельзя кстати. Как выбрать любимца, подходящего вам по темпераменту, читайте в статье: https://psy.systems/post/vybiraem-porodu-sobaki-po-temperamentu-i-povedeniu.

Считаете, что вашим друзьям это будет полезно? Поделитесь с ними в соцсетях!
ХОТИТЕ БЕСПЛАТНО ПОЛУЧАТЬ НОВЫЕ ВЫПУСКИ ОНЛАЙН-ЖУРНАЛА «ПСИХОЛОГИЯ ЭФФЕКТИВНОЙ ЖИЗНИ»?