Mathematical Education: Stat'i V.I. Arnol'da

Математическое образование: вчера, сегодня, завтра…

Арнольд Владимир Игоревич
"Жесткие" и "мягкие" математические модели

6. Статистика первых цифр степеней двойки и передел мира

Первая цифра числа 2ⁿ бывает единицей примерно в 6 раз чаще, чем девяткой. Так же распределены первые цифры населения и площади стран мира. (Я предполагаю, что и первые цифры, скажем, численностей или капиталов компаний подчиняются тому же распределению, но не располагаю нужными для проверки данными).

Предлагаемое ниже объяснение превращается в теорему при фиксации простейшей жесткой модели (такие теоремы можно, по-видимому, доказать и для широкого класса других жестких моделей, так что вся теория, видимо, оправдывается и при мягком моделировании).

Последовательность первых цифр первых чисел 2ⁿ (n = 0, 1, 2,...):

1,2,4,8,1,3,6,1,2,5,1,...
содержит очень много единиц. Можно проверить, продолжив вычисление, что единицы составляют асимптотически около 30 членов этой последовательности.

Этот результат следует из теоремы Г. Вейля (доказанной около ста лет назад), согласно которой последовательность дробных долей {nx} чисел nx, где x иррационально, равномерно распределена на отрезке от 0 до 1. (Дробная доля числа a -- это разность {a} = a - [a] между a и наибольшим целым числом [a], не превосходящим a).

Рис. 12. К теореме Вейля.

Теорема Вейля означает, что если точка прыгает по окружности длины 1 шагами, несоизмеримыми с ее длиной (рис. 12), то доля времени, проводимого прыгающей точкой в каждой дуге, пропорциональна длине дуги (и не зависит от расположения дуги на окружности).

Первая цифра i числа определяется тем, в какой из отрезков между точками lg i и lg(i + 1) попадает дробная часть (мантисса) его логарифма (здесь и далее логарифмы десятичные).

Поскольку lg2ⁿ=nlg2, а число x= lg2 иррационально, теорема Вейля доставляет равномерное распределение точек {lg2ⁿ} на отрезке от 0 до 1. Следовательно, доля чисел 2ⁿ, имеющих первой цифрой десятичного разложения i, составляет длину p_i отрезка от lg i до lg(i + 1). Мы получаем таким образом следующую статистику первых цифр чисел 2ⁿ (в процентах):

i	1	2	3	4	5	6	7	8	9
100p_i	30	17	12	10	8	7	6	5	5

Например, доля единиц составляет p₁=lg2» 0,30103..., что примерно в 6 раз больше доли девяток.

Такое же распределение имеют первые цифры членов любой геометрической прогрессии (например, 3ⁿ). Исключение составляют, конечно, прогрессии 10ⁿ, ()ⁿ, и вообще прогрессии со знаменателями 10^p/q, где p и q целые.

Лет двадцать назад Н.Н. Константинов обратил мое внимание на то, что первые цифры населения стран мира подчиняются тому же странному распределению: единиц примерно вшестеро больше, чем девяток. Вот мое тогдашнее объяснение этого явления. Рассмотрим последовательность, образованную численностями населения фиксированной страны в последовательные годы. Согласно теории Мальтуса, эти числа образуют геометрическую прогрессию. Согласно теореме Вейля, первые цифры распределены так же как первые цифры степеней двойки. Перейдем теперь к статистике населения разных стран в один и тот же год. Согласно "эргодическому принципу" временные средние можно заметить пространственными: статистика первых цифр должна оказаться такой же, как для одной страны.

(Эргодический принцип -- то же самое соображение, согласно которому для исследования эволюции дерева в лесу нет необходимости ждать, когда оно вырастет из семени и умрет, а можно просто посмотреть на деревья разных возрастов. Здесь мы применили этот принцип в обратную сторону, вычисляя статистику по странам на основании знаний об эволюции одной страны.)

Для контроля я сравнил числа страниц в книгах на полке в моей библиотеке, длины рек и высоты гор. Во всех этих случаях доли единиц и доли девяток среди первых цифр полученных чисел оказались близкими. Книги, горы и реки не растут в геометрической прогрессии, теория Мальтуса к ним неприменима. Поэтому различие статистик первых цифр в числах, выражающих численности населения и, скажем, длины рек, служат своеобразным подтверждением формулы Мальтуса (согласно которой население либо растет в геометрической прогрессии, либо убывает, как мы это сейчас наблюдаем в России).

Однако лет десять назад М.Б. Севрюк обнаружил, что не только население, но и площади стран мира подчиняются такому же странному закону распределения первых цифр, как степени двойки ¹. К площадям теория Мальтуса, по-видимому, неприменима, так что возникает вопрос -- как объяснить это поведение площадей:

i	1	2	3	4	5	6	7	8	9
100p_i	29	21	10	11	6	6	8	3	6

Оказывается, целый ряд моделей передела мира приводит именно к такому распределению. Простейшая модель (для которой установление указанного распределения -- теорема) такова: за единицу времени страна с вероятностью 50% делится пополам, а с вероятностью 50% объединяется с другой страной такой же площади.

Эта жесткая модель допускает точное математическое исследование, показывающее, что доля времени, в течение которого первая цифра площади страны будет единицей (соответственно, i) составляет lg2»0,3... (соответственно, lg(i+1)-lg i).

Компьютерные эксперименты (проведенные М. В. Хесиной в Торонто и Ф. Аикарди в Триесте летом 1997 года) показывают, что такое же распределение устанавливается в большом числе других моделей. Например, можно предположить, что за единицу времени любая из стран (с площадями x_k и x_l) с вероятностью 1/2 объединяется со случайно выбранной другой (образуя страну площади x_k+x_l), а с вероятностью половина делится на две равные части.

Начиная с сотни стран площадей, скажем, x_k=k, можно уже через сотню шагов получить хорошее приближение к нашему стандартному распределению.

Деление на равные части можно заменить делением на части площадей px_k и (1-p)x_k (Квебек, Украина,...), вероятности объединения и деления можно сделать различными -- результаты численного эксперимента малочувствительны к этим изменениям модели. Можно даже ввести в рассмотрение географическое положение стран, разрешив объединение лишь с соседями (пренебрегая существованием в свое время Восточной Пруссии, а ныне -- Калининградской области). Численные эксперименты приводят к тому же распределению (будем ли мы моделировать географию земного шара окружностью, или сферой, отрезком или прямоугольником).

Таким образом, наше распределение является, по-видимому, свойством мягкой модели, но доказательство того, что оно устанавливается в ее конкретных реализациях в виде жестких моделей -- трудная и далеко не решенная математическая задача.

Математика, подобно физике, -- экспериментальная наука, отличающаяся от физики лишь тем, что в математике эксперименты очень дешевы. Видимо, именно поэтому бюджет отделения математики в РАН в сорок раз меньше бюджета физических отделений (а, следовательно, производительность наших математиков в соответствующее число раз выше).

¹Это распределение может показаться менее странным, если заметить, что это -- единственное распределение, не зависящее от того, в каких единицах распределяются площади (будь то квадратные километры, квадратные мили, квадратные футы, квадратные дюймы и т. д.)

Следующий раздел

Математическое образование: вчера, сегодня, завтра…

Арнольд Владимир Игоревич "Жесткие" и "мягкие" математические модели

Арнольд Владимир Игоревич
"Жесткие" и "мягкие" математические модели