Книга «Элементарное введение в статистику (от практики к теории)» (2016) продолжает «Книгу для тех, кто не любит статистику, но вынужден ею пользоваться» (2008) Александра Резника, исследователя-аддиктолога (занимается изучением зависимого поведения) из университета им. Бен-Гуриона. В этот раз его соавтором стал Даниил Резник, нейропсихолог из Тель-Авивского университета. Оба автора ведут занятия по статистике для тех, кого называют гуманитариями: психологов, педагогов, социальных работников, историков – всех, кто не имеет фундаментальной математической подготовки, но заметно выиграет, если будет понимать статистику. В предисловии авторы отмечают, что они стремились пройти «между Сциллой чрезмерной математизации текста и Харибдой превращения книги в пособие "для чайников”».

Как и первый учебник Александра Резника, «Элементарное введение...» можно использовать для подготовки к экзамену, даже для вводных лекций по статистике – в книге множество наглядных примеров. Например, в 1990-е гг., когда в Израиль переехали жить более миллиона человек, было установлено, что показатели иммиграции положительно связаны с уровнем потребления наркотиков. Это открытие вызвало моральную панику. Но когда в расчетах учли третий показатель – естественный прирост населения, – оказалось, что рост уровня наркопотребления больше связан с ростом населения и мигранты тут, строго говоря, ни при чем.

В новой книге авторы не остановились на небольших выборках (как было в предыдущей) и поставили задачу ввести читателя в мир, прежде всего, параметрической статистики, сохранив при этом неформальный стиль, удобную подачу материала и ориентацию на практические задачи. Поэтому здесь рассмотрены и корреляции, и t-тесты, и однофакторный дисперсионный анализ, и регрессии, и даже факторный анализ.

Возможно, самым приятным бонусом является историческое введение, которое поясняет, из какого переплетения противоборствующих концепций сложился современный статистический анализ. Авторы отмечают, что статистика – это не «свод застывших приемов», а «здание, строительство которого продолжается». Такая историческая реконструкция напоминает «Социологию философий» Рэндалла Коллинза – фундаментальный труд, который показывает, как на основе личных сетей и контактов развивалась европейская философия. Авторы этой книги в миниатюре делают нечто подобное в отношении статистики.

«Историческая» часть представлена первой главой, приложением и постраничными пояснениями. В приложение авторы помещают галерею портретов и биографии известных статистиков. Изложенных в «исторической» главе фактов и событий вполне хватило бы для игры «Что? Где? Когда?» по истории статистики. Например, почему регрессия была так названа? Какой статистик предложил термины «ANOVA», «бит» (информации) и «boxplot» (тип графиков – «ящик с усами»)? Но главное – в историческом введении простым языком объясняются сложные вопросы логики статистических тестов. Например, вопрос о том, как получилось, что статистики Рональд Фишер и Эгон Пирсон конкурировали и критиковали друг друга, но до сих пор студенты по всему миру изучают понятия «нулевая гипотеза» (введено Фишером) и «альтернативная гипотеза» (введено Пирсоном и Нейманом), хотя сами авторы были против такого объединения. Если читателя когда-либо приводили в тупик формулировки вроде «нулевая гипотеза не опровергнута», первая часть этой книги станет им отличным подспорьем и облегчит понимание самих тестов (хи-квадрат, t-тест, ANOVA и других).

Книга состоит из шести глав, которые следуют логике устройства современных учебников по статистическим методам. Первая, помимо истории, включает основные понятия статистики, объясненные на максимально простых примерах, и рассказ о разных типах шкал с такими же примерами на кофе и мороженом, оценках за экзамен и градусниках. Вторая глава – об описательной статистике: в ней поясняется, для чего нужна описательная статистика, что такое меры центральной тенденции (среднее, медиана, мода), меры вариации и как описываемые выборочные совокупности связаны со всей популяцией. Третья, самая обширная глава посвящена проверке статистических гипотез и различным тестам, объяснению направленных и ненаправленных гипотез, типов статистических ошибок и доверительных интервалов. Остальные три главы рассказывают о корреляции, линейной регрессии и однофакторном дисперсионном анализе (для сравнения трех и более средних). Эти небольшие по объему главы подойдут для более-менее упорядоченного понимания тем.

В главах, объясняющих логику анализа, авторы существенно «разбавили» расчеты и формулы историческими фактами и пояснениями в комментариях, которые к тому же делают книгу более познавательной, чем обычный учебник. В этих комментариях, многочисленных аналогиях и примерах, видимо, и заключается посыл авторов «гуманитариям», для которых язык формул будет недостаточно ясен и поэтичен. Связный текст с историческими иллюстрациями обладает магической разъяснительной силой.

В этой книге, как и в некоторых других современных учебниках, есть главные герои, Борис и Анна. Они вместе страдают от гендерных стереотипов, попадают в разные житейские ситуации и пытаются справиться с ними с помощью статистики. Примеры приближены к современной жизни – сдача ЕГЭ, друзья в социальных сетях, свадьбы, летний отпуск и даже «хозяйка брачного агентства Роза», которая хотя бы раз в жизни встречалась каждому.

Александр Резник продолжает, уже по традиции, использовать названия фильмов и цитаты из художественных произведений в названиях частей книги. Так, в разделе «"Мертвец" в "Бойцовском клубе" или как коррелировать качественные данные» Борис и Анна сравнивают фильмы, которые они хотели бы посмотреть. Читатель узнает о ранговых корреляциях Спирмена и Кендалла и заодно получит список отличных фильмов.

От других учебников «Элементарное введение...» отличают практические советы: когда использовать какие меры центральной тенденции, какие меры связи использовать для разных шкал переменных, или на что следует обратить внимание в корреляционном анализе. Например, известно, что «корреляционная связь не тождественна причинно-следственной связи», так как оба явления могут быть следствием чего-то третьего (spurious correlation – например, положительная корреляция между запусками космических кораблей и докторскими степенями по социологии в США, другие примеры см. здесь). Авторы поясняют разницу между корреляцией и причиной и следствием на конкретном примере изучения связи курения и вероятности появления рака легких. Практические советы помогут избегать типичных ошибок новичков в статистике.

Особое удовольствие от книги получит довольно узкая аудитория – те, кто легко читает формулы, но раньше со статистикой не сталкивался. Книга адресована гуманитариям, хотя прочитать ее «от корки до корки» им будет трудно. Гуманитарии не читают столько формул, а те, кто читает, не называют себя гуманитариями. Учитывая сегодняшнее развитие статистических программ, расчет по формулам для начинающих изучать статистику уже не всегда так важен, как умение интерпретировать результат. Те, кто знаком с азами, будут ждать более «продвинутых» параграфов, например, проверки предположений линейной регрессии или диагностики регрессионной модели. В популярных учебниках, таких как «Наглядная медицинская статистика» Авивы Петри и Кэролайн Сэбин, так и сделано (переведена на русский язык и продается на сайте издательства).

Для «большого учебника» «Элементарному введению...» недостает примеров того, как в научном тексте (статье или отчете) принято представлять результаты статистического анализа или как читать таблицы в опубликованных научных статьях, – что придется делать многим студентам. К задачам из приложения ключей тоже нет. Но не стоит ожидать, что в 300-страничной книге можно будет найти ответы на все вопросы. Для сравнения: аналогичный по содержанию и аудитории учебник «Statistics Without Maths for Psychology» по объему в два раза больше.

В качестве приложения представлены методы эксплораторного факторного анализа и бинарной логистической регрессии. Однако читателю предстоит самому оценить, насколько целостно в книге поданы методы. Так, в главе об ANOVA описаны логика, формула расчета, непараметрический аналог и один из post hoc тестов (Least Significant Difference, LSD). Но читатель не найдет даже короткой характеристики других популярных тестов для попарного сравнения (Bonferroni, Tukey HSD, Games-Howell). В разделе о факторном анализе авторы пишут только о разведывательной версии метода (EFA) и ее ограничениях, хотя сегодня студенты социальных наук все чаще используют конфирматорный факторный анализ (CFA), позволяющий проверять теорию и делать выводы о причинно-следственных отношениях. Та же фрагментарность замечается и в исторической части книги, где не сказано о жарких дебатах последних 20–30 лет, когда в частотную статистику Фишера и Пирсона ворвалась философия байесовского анализа. (Основной аргумент байезианцев состоит в том, что проверка значимости нулевой гипотезы не помогает ответить на самый важный вопрос: есть ли эффект при наличии таких-то данных. Байесовский вывод – одно из решений этой проблемы, и его давно пора объяснять и «студентам-гуманитариям», что делает Энди Филд в «Приключении в статистике»).

Впрочем, если понять логику анализа, остальное можно найти самостоятельно – а пониманию авторы уделяют много внимания. Плюсом «Элементарного введения...» можно считать отсутствие «привязки» к конкретной программе анализа данных. Поняв логику метода, пользователи R, Stata, SPSS (или просто карандаша и бумаги) смогут применять описанные методы для анализа собственных данных.

Формат и шрифт делают книгу легкой и удобной для чтения, хотя, если полагаться только на ретро-дизайн обложки из начала 2000-х, книгу можно легко пропустить на полке. Тем, кому когда-то понравилась «Книга для тех, кто не любит статистику...», стоит полистать и эту работу и лично оценить, что из нее вам пригодится, а пригодиться может многое.

Анна Широканова

доцент НИУ ВШЭ – Санкт-Петербург, старший научный сотрудник ЛССИ НИУ ВШЭ

Рекомендуем