А/Б-тест упражнения с «Улитками» на участниках спринта

Публичный пост

12 февраля 2025 752

В одной из корпоративных групп человек, ответственный за наш курс, сказал, что они еще отвечают за метрики (в частности, понравилось/не понравилось), а там участники говорят, что инструкция не понятна и баллы режут. Давай, говорят, мы тут тебе инструкцию переделаем и чек-лист поменяем, чтобы лучше стало.

Я, конечно, покривился, но... А почему бы и нет?... Но если что-то менять, и это будет к лучшему, то я в свои курсы это утащу. Только сами своими руками ничего не трогайте...

Но тут встает важный вопрос: А как понять, стало ли лучше?... А это не тривиальный вопрос...

И ответить на него можно только языком выборок и статистических критериев!

Картинка из этой заметки про "Ученые доказали"

Значит, планируем эксперимент...

Когда меня спрашивают, что самое главное в жизни, одним я говорю, что секс-наркотики и рок-н-ролл, другим я говорю, что дом, семья и карьера... А третьим я ничего не говорю. Потому что самое главное в жизни - тщательно спланированный эксперимент с контрольной группой.

У меня как раз планировалось очередное занятие с участниками спринта "12 недель", а там как раз тема про Улиток. Значит испытаем...

Я подготовил это поле (это копия рабочего поля на конец занятия, которое защищено от редактирования со стороны. И я там удалил все имена и комментарии, чтобы никого не спалить).

В поле заготовил 20 групп. упражнение с Улитками выполняется в тройках. Пришло ко мне 66 человек.

Первые 10 групп я посвятил "Улиткам А" - там одна форма инструкции и чек-листа (то, как у нас сейчас в занятии), и еще 13 групп "Улиткам Б" - это я посмотрел, что предлагали заказчики... И сделал нормально...

Основными камнями преткновения были:

Не надо использовать эмоджики в описании ролей. Это путает. (в Улитках Б не было эмоджиков, плюс разбил явно упражнение на этапы)
Очень сложный чек-лист. Надо меньше пунктов. (В Улитках Б я сделал 8 пунктов вместо 10. Два пункта слил, один выбросил. Проверок стало меньше, но стало ли хуже?...)

С уменьшением чек-листа есть такая опасность - уберешь лишние пункты и начнешь пропускать ошибки. А пропустишь ошибки и получишь улитку, где проверки пройдены, а зачем я делал это сложное упражнение - не понятно. То есть, не выявим точки, где надо будет думать.

А сделаешь много пунктов, то люди просто будут что-то игнорировать.

Меня этот расклад не пугал, но "отвечающего за метрики продукта заказчика" - пугал. Им же сложно, они дизлайки ставят.

Контрольные переменные

Наваял анкету и по шкале Лайкерта собирал ответы на вопросы:

Плюс про результат занятия спросил:

Было еще два поля ответить в свободной форме, но это почитать и подумать, а не посчитать и подумать.

Результаты

Как обрабатывают шкалы Лайкерта, то есть те, где я прошу что-то ответить по шкале от 1 до ... до скольких-то...

Наивные люди считают средние значения (это же цифры, их можно складывать и делить!) и сравнивают их между собой. Получают что-то такое:

И могут радостно воскрикнуть: "АГА! А мы говорили, что твои эмоджики мешают пониманию, в группе А средняя оценка сложности - 3,286, а в Группе Б - 2,400! В группе Б почти на 20 процентов легче без твоих эмоджиков!"

Я эмоджики добавлял умышленно, чтобы создать disfluency. Понятно - мутноватая концепция (ну если вы понимаете, о чем, я), не все их эксперименты воспроизводятся, но интересное зерно там есть

Но тут смысл в другом:

А кто сказал, что это не погрешность?

Вдруг погрешность?

Конечно, тем людям, кто не понимает этого слова, бесполезно объяснять что такое "зарегулированная система" в понимании Деминга - невозможно (хотя, если вы нагуглите мой видос 15-ти летней давности "Люди с снежинки с руками из жопы", то там я пытался...).

А раз нет ~~мозгов~~ повода усомниться, то тут и так все понятно: если средние значения отличаются, значит отличаются и процессы, породившие эти средние, а раз так, то НАДО МЕНЯТЬ ПРОЦЕССЫ.

Вы не представляете какое количества вреда было нанесено таким образом...

Не, ну правда, что там с погрешностями?

Чтобы не одурачить себя случайностью люди придумали математическую статистику и статистические критерии.

Получилось, кстати, спорно. Глупые стали еще больше дурачить себя, а умные стали умнее. Мне кажется, что это беда развития технологий - оно усугубляет интеллектуальное неравенство. Но об этом я уже ныл...

Есть специальные функции, которые показывают в зависимости от параметров выборок (размеров, средних значений, мер разброса и т.п.) с какой вероятностью средние значения отличаются.

Один из таких критериев - t-критерий Стьюдента. Но он нам не подходит, потому что шкала Лайкерта - ранговая и нам нужен его непараметрический собрат: U-критерий Манна-Уитни (если вы реально хотите ~~сойти за умного~~ разобраться в этих тонкостях, то есть прекрасная и понятная книга "Статистика и котики")

Считаем этот как его там Уитни... Конечно же не сами, я пользуюсь для этого XLStat Free плагином. Он дает такой результат:

Если всё равно не понятно, то он там еще человеческим языком пишет, что уровень статистической значимости выше того уровня, когда уже можно отвергнуть нулевую гипотезу, которая заключается в том, что

Нулевая гипотеза: Выборки не отличаются

То есть, для Группа учеников Б сочла инструкцию более понятной. И это нельзя это списать на флуктуации.

А другие результаты как там?

Дальше смотрим, как отличаются оценки сложности чеклиста:

Прекрасно! Честно говоря, я надеялся на отсутствие значимых отличий, но нет. Статистически-значимо.

p-value - хоть в журнал отправляй.

С другой стороны - мы выкидываем сложные проверки и людям становится проще их выполнять. Но есть риск утратить смысл упражнения. Смотрим...

Отличия в оценке полезности упражнения не значимы:

Ну а отличия в декларируемой готовности что-то поменять в своих подходах эталонно неотличимы... Еще чуть чуть и были бы статистически-значимо идентичны :-)

Вывод

Значит в принципе... Глядя на это все, я думаю, что для своих учеников я бы:

Описание упражнения взял бы из группы Б
Для первого занятия взял чек-лист из группы Б
На последующих занятиях вернул бы чек-лист из группы А

В идеале еще бы взять группу экспертов и поставить всем улиткам оценки и посмотреть на фактическую успеваемость, но...

Это сложно и муторно,
На первый взгляд, на этой выборке значимых отличий не будет. Я все улитки просмотрел, ребята в этой группе справились хорошо. Если учесть, что многие были тут впервые, то даже очень хорошо.