В одной из корпоративных групп человек, ответственный за наш курс, сказал, что они еще отвечают за метрики (в частности, понравилось/не понравилось), а там участники говорят, что инструкция не понятна и баллы режут. Давай, говорят, мы тут тебе инструкцию переделаем и чек-лист поменяем, чтобы лучше стало.
Я, конечно, покривился, но... А почему бы и нет?... Но если что-то менять, и это будет к лучшему, то я в свои курсы это утащу. Только сами своими руками ничего не трогайте...
Но тут встает важный вопрос: А как понять, стало ли лучше?... А это не тривиальный вопрос...
И ответить на него можно только языком выборок и статистических критериев!
Картинка из этой заметки про "Ученые доказали"
Значит, планируем эксперимент...
Когда меня спрашивают, что самое главное в жизни, одним я говорю, что секс-наркотики и рок-н-ролл, другим я говорю, что дом, семья и карьера... А третьим я ничего не говорю. Потому что самое главное в жизни - тщательно спланированный эксперимент с контрольной группой.
У меня как раз планировалось очередное занятие с участниками спринта "12 недель", а там как раз тема про Улиток. Значит испытаем...
Я подготовил это поле (это копия рабочего поля на конец занятия, которое защищено от редактирования со стороны. И я там удалил все имена и комментарии, чтобы никого не спалить).
В поле заготовил 20 групп. упражнение с Улитками выполняется в тройках. Пришло ко мне 66 человек.
Первые 10 групп я посвятил "Улиткам А" - там одна форма инструкции и чек-листа (то, как у нас сейчас в занятии), и еще 13 групп "Улиткам Б" - это я посмотрел, что предлагали заказчики... И сделал нормально...
Основными камнями преткновения были:
- Не надо использовать эмоджики в описании ролей. Это путает. (в Улитках Б не было эмоджиков, плюс разбил явно упражнение на этапы)
- Очень сложный чек-лист. Надо меньше пунктов. (В Улитках Б я сделал 8 пунктов вместо 10. Два пункта слил, один выбросил. Проверок стало меньше, но стало ли хуже?...)
С уменьшением чек-листа есть такая опасность - уберешь лишние пункты и начнешь пропускать ошибки. А пропустишь ошибки и получишь улитку, где проверки пройдены, а зачем я делал это сложное упражнение - не понятно. То есть, не выявим точки, где надо будет думать.
А сделаешь много пунктов, то люди просто будут что-то игнорировать.
Меня этот расклад не пугал, но "отвечающего за метрики продукта заказчика" - пугал. Им же сложно, они дизлайки ставят.
Контрольные переменные
Наваял анкету и по шкале Лайкерта собирал ответы на вопросы:
Плюс про результат занятия спросил:
Было еще два поля ответить в свободной форме, но это почитать и подумать, а не посчитать и подумать.
Результаты
Как обрабатывают шкалы Лайкерта, то есть те, где я прошу что-то ответить по шкале от 1 до ... до скольких-то...
Наивные люди считают средние значения (это же цифры, их можно складывать и делить!) и сравнивают их между собой. Получают что-то такое:
И могут радостно воскрикнуть: "АГА! А мы говорили, что твои эмоджики мешают пониманию, в группе А средняя оценка сложности - 3,286, а в Группе Б - 2,400! В группе Б почти на 20 процентов легче без твоих эмоджиков!"
Я эмоджики добавлял умышленно, чтобы создать disfluency. Понятно - мутноватая концепция (ну если вы понимаете, о чем, я), не все их эксперименты воспроизводятся, но интересное зерно там есть
Но тут смысл в другом:
А кто сказал, что это не погрешность?
Вдруг погрешность?
Конечно, тем людям, кто не понимает этого слова, бесполезно объяснять что такое "зарегулированная система" в понимании Деминга - невозможно (хотя, если вы нагуглите мой видос 15-ти летней давности "Люди с снежинки с руками из жопы", то там я пытался...).
А раз нет мозгов повода усомниться, то тут и так все понятно: если средние значения отличаются, значит отличаются и процессы, породившие эти средние, а раз так, то НАДО МЕНЯТЬ ПРОЦЕССЫ.
Вы не представляете какое количества вреда было нанесено таким образом...
Не, ну правда, что там с погрешностями?
Чтобы не одурачить себя случайностью люди придумали математическую статистику и статистические критерии.
Получилось, кстати, спорно. Глупые стали еще больше дурачить себя, а умные стали умнее. Мне кажется, что это беда развития технологий - оно усугубляет интеллектуальное неравенство. Но об этом я уже ныл...
Есть специальные функции, которые показывают в зависимости от параметров выборок (размеров, средних значений, мер разброса и т.п.) с какой вероятностью средние значения отличаются.
Один из таких критериев - t-критерий Стьюдента. Но он нам не подходит, потому что шкала Лайкерта - ранговая и нам нужен его непараметрический собрат: U-критерий Манна-Уитни (если вы реально хотите сойти за умного разобраться в этих тонкостях, то есть прекрасная и понятная книга "Статистика и котики")
Считаем этот как его там Уитни... Конечно же не сами, я пользуюсь для этого XLStat Free плагином. Он дает такой результат:
Если всё равно не понятно, то он там еще человеческим языком пишет, что уровень статистической значимости выше того уровня, когда уже можно отвергнуть нулевую гипотезу, которая заключается в том, что
Нулевая гипотеза: Выборки не отличаются
То есть, для Группа учеников Б сочла инструкцию более понятной. И это нельзя это списать на флуктуации.
А другие результаты как там?
Дальше смотрим, как отличаются оценки сложности чеклиста:
Прекрасно! Честно говоря, я надеялся на отсутствие значимых отличий, но нет. Статистически-значимо.
p-value - хоть в журнал отправляй.
С другой стороны - мы выкидываем сложные проверки и людям становится проще их выполнять. Но есть риск утратить смысл упражнения. Смотрим...
Отличия в оценке полезности упражнения не значимы:
Ну а отличия в декларируемой готовности что-то поменять в своих подходах эталонно неотличимы... Еще чуть чуть и были бы статистически-значимо идентичны :-)
Вывод
Значит в принципе... Глядя на это все, я думаю, что для своих учеников я бы:
- Описание упражнения взял бы из группы Б
- Для первого занятия взял чек-лист из группы Б
- На последующих занятиях вернул бы чек-лист из группы А
В идеале еще бы взять группу экспертов и поставить всем улиткам оценки и посмотреть на фактическую успеваемость, но...
- Это сложно и муторно,
- На первый взгляд, на этой выборке значимых отличий не будет. Я все улитки просмотрел, ребята в этой группе справились хорошо. Если учесть, что многие были тут впервые, то даже очень хорошо.