Дисперсия суммы или как мелкие задачи увеличивают неопределенность

Публичный пост

8 февраля 2024 265

Dima Yanter

"Чем меньше задачи в плане, тем точнее оценки и, следовательно, точнее план".

Короткий ответ - это неверно.
Длинный ответ - верное обратное.

Пусть вам надо сделать одно дело, которое можно разбить на два дела поменьше X и Y. Сколько времени займет каждое дело X и Y мы знаем только примерно.

Дальше верно два утверждения, которые можно проверить в любом учебнике вероятности на свой вкус.

Мат ожидание суммы равно сумме мат ожиданий
Дисперсия суммы - это сумма дисперсий и двух ковариаций

Если два дела X и Y независимы, то ковариация равна нулю. Мы получаем, что разбив задачу на две, мы получили неопределенность конечного результата как сумму неопределенностей.

Загадочная ковариация входит в игру, если есть жесткая зависимость хотя бы между последовательностью их выполнения (если это задача с чайником где надо налить воду и включить чайник) или еще хуже результат одной задачи, частично используется в другой.

Давайте, посчитаем сценарий

Х - нормально распределенная случайная величина N(10, 3)
Y = max(X, N(10, 3)) - второй шаг априорно оценивается так же, но если первый шаг будет чуть больше (10.5), то второй займет столько же как и первый.

Получим примерно такую картину (красное сумма двух независимых N(10, 3), синее - X+Y)

Дисперсия "по плану" = 3+3=6, Дисперсия "по факту" = 8.1
Среднее "по плану" = 10 + 10 = 20, Среднее "по факту" = 20.98
Распределение поехало вправо

Давайте попробуем с расширить пример до 5 задач.

Те же условия, "сложность" накапливается с каждым шагом

Х = N(10, 3)
Y = max(X, N(10, 3))
A = max(Y, N(10, 3))
B = max(A, N(10, 3))
C = max(B, N(10, 3))

Численный эксперимент

Дисперсия: 15 vs 30.97
Среднее: 50 vs 56.23
Распределение поехало вправо сильнее

Иллюстрация о "пользе" дробления на мелкие задачи в данном сценарии - один и тот же объем работы разделим на 10, 100 и 1000 задач

N = 10. Самый короткий план, и самый точный

N = 100

N = 1000. Самый детальный план, и самый ошибочный

Чем более шагов у вас в плане, тем он более неточный.

Может вы имеете дело с загадочной проблемой, а может метод вносит системную ошибку.

Можно сказать что это такой выдуманный пример, но это лишь иллюстрация формулы из любого учебника теории вероятности.

Встретите зависимые задачи - вспомните про ковариации и добавьте к итоговой оценке. Два раза.

9 комментариев 👇

Максим Дорофеев Прокрастинатолог 8 февраля 2024

Если два дела X и Y независимы, то ковариация равна нулю. Мы получаем, что разбив задачу на две, мы получили неопределенность конечного результата как сумму неопределенностей.

Вот тут неадо немного аккуратнее быть. Что такое неопределенность? У нас нет такого понятия :-) Мы же пока только дисперсиями оперируем.
А дисперсия - это хитрая такая мера разброса - это же сумма квадратов отклонений от матожидания. И эта квадратичная зависимость дальше может внести свою лепту.

Если мы под неопределенностью будем рассматривать среднее отклонение (а не среднеквадратичное, которое является корнем из дисперсии), то там появится нелинейность. В данном случае - сумма неопределенностей будет меньше, чем неопределенность суммы :-)

Y = max(X, N(10, 3))

Тут немного смысл не понял... Это у нас длительность отдельной задачи? То есть, длительность Y не модет быть меньше длительности X? Как это связано с чайником? И какому явлению в реальной жизни может соответствовать такая модель? Не догнал я тут немного...

Развернуть 1 комментарий

Dima Yanter 8 февраля 2024 автор

@cartmendum,

MAD - Mean Absolute Deviation для нормального распределения можно посчитать

MAD(X) = sqrt(2/pi) * sigma_X

MAD(X + X) = sqrt(2/pi) * sqrt(2) sigma_X < MAD(X) + MAD(X)

Опять получается что если делим пополам н.о.р.с.в, то MAD суммы меньше суммы MAD. Поделив - мы имеем дело с суммой MAD. Не делив - с MAD суммы, которая меньше суммы MAD.

Y = max(X, N(10, 3))

Это условный случай стори поинта: мы делим задачу на две по одному стори поинту. У стори поинта есть примерно нормальное распределение эмперическое. Дальше обычно начинают с самой простой и это значит, что вторая задачу будет примерно такой же, но не меньше чем первая.

Один стори поинт это N (10,3) - среднее 10 часов с дисперсией 3 часа

Первая задача заняла 8 - случайное значениe из N (10,3)
Вторая - 8 или больше из N (10,3)

Или первая - 12 - случайное значениe из N (10,3)
Вторая тоже - 12 или больше из N (10,3)

Развернуть 1 комментарий

Максим Дорофеев Прокрастинатолог 8 февраля 2024

Кстати, отдельной статьи достойна идея про ненормальные распределения. Как только там появляется не симметрия (как у логнормального, например), то тут же идет дополнительные чудеса...

Вспомнил какой-то свой древний доклад еще начала 00х:

Развернуть 1 комментарий

Антон Жулитов Разработка ПО, руководитель. 8 февраля 2024

"Сколько времени займет каждое дело X и Y мы только примерно."
У вас тут дезиртировало какое то слово.

"Мат ожидание суммы равно сумме мат ожиданий
Дисперсия суммы - это сумма дисперсий и двух ковариаций"
(тут бы еще определение плотности вероятности поднять и можно тушить свет)

Это наверное да, но ...
Кажется вы запутали себя и окружающих сложной терминологией.
Хочу привести очень простой контрпример.
Предположим оба под-дела независимы и если спросить меня сколько они займут я скажу "от 1 до 6 часов, и я ничего не знаю про распределение этих вероятностей".
Тогда уместная модель будет сказать что это 1d6 часов на каждую подзадачу.

А если спросить меня про дело в целом я скажу "от 2 до 12 часов, и я ничего не знаю про распределение этих вероятностей". То есть я бы мог порассуждать про подзадачи и понять что, что-то знаю, но я этого не делал и не знаю.
Тогда уместная модель будет сказать что это 1d11 + 1 часов на каждую подзадачу.

В первом случае вероятность исходов 2 и 12 = 1/36 а вероятность исхода 7 = 1/6.
Во втором же все 3 исхода имеют вероятность 1/11. (дробные длительности для простоты игнорируем).
Сдается мне в первом случае дисперсия таки меньше. Ну и очевидно эта оценка дает больше ценной информации.

Особенно если исключить вероятность того что на самом деле есть еще под-задача Z которую мы просто не видели :-) А она там обычно есть, и не вероятность а задача.

Развернуть 1 комментарий

Dima Yanter 8 февраля 2024 автор

@Hedin,

вы в примере используете дискретное распределение

дисперсия 1, 2, 3, 4, 5, 6 = 2.916
дисперсия суммы = 5.833 = 2.916*2

если брать нормальное распределение
и 1 - 6 это квантильный интервал (x/2, 1-x/2)
то у суммы будет тот же квантильный интервал будет (-3.6, 10.6)

Развернуть 1 комментарий

Антон Жулитов 12 февраля 2024

@dimaya, я думаю, что когда мы делаем оценки мы уже отбрасываем хвосты нормального распределения. Тыкаем в горб, а там распределение близко к этому.

Развернуть 1 комментарий

Dima Yanter 12 февраля 2024 автор

@Hedin, зависит от метода

Интервальная оценка включает дисперсию в том или ином виде

Точечная оценка мат ожидание линейная

Развернуть 1 комментарий

Максим Дорофеев Прокрастинатолог 9 февраля 2024

Очень хорошая статья про неопределенность от Эли Шрегенхайма: https://elischragenheim.com/2023/11/18/fighting-uncertainty-as-a-critical-part-in-managing-organizations/

(ее перевод)

Развернуть 1 комментарий

Dima Yanter 10 февраля 2024 автор

@cartmendum, я часто встречаю похожу точку зрения. Я методологически с ней не согласен - для uncertainty неприменим глагол fight :) так же как ты не можешь победить второй закон термодинамики, обогнать скорость света или "победить неопределенность Гейзенберга", и фокус, мне кажется, должен быть на управление риском, а не борьбой с неопределенностью.

Например, в кейсе про Catching a Flight - ты можешь купить билет с открытой датой и сесть в любой рейс, для многих направлений 1) это работающая стратегия, ты приезжаешь в аэропорт и в лучшем случае через час улетаешь, в худшем - через два с половиной 2) ее невозможно воспроизвести "буферами времени". Или в аэропорте могут real time показывать очереди на досмотр и можно купить fast track, сделать online check in, лететь без багажа и ехать на поезде. Просто приезжать за пять часов до вылета выглядит очень консервативно и может быть "очень дорого" при наличие альтернатив.

Важно отметить, что заглавное рассуждение Never Say ‘I Know’ and Never Say ‘I Don’t Know’ - это постпозитивизм, точнее фаллибилизм. В этой концепции, вполне ок сомневаться и во втором законе термодинамики, и в скорости света и в неопределенности Гейзенберга. В конечном итоге, это субъективный эпистемологический выбора человека :)

Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?

Войти или Вступить в Клуб