ПРОБЛЕМЫ ПЕРЕДАЧИ ИНФОРМАЦИИ
Том 55
2019
Вып. 1
УДК 621.391.1 : 519.72
© 2019 г.
В.В. Прелов
ОБ ЭКСТРЕМАЛЬНЫХ ЗНАЧЕНИЯХ ЭНТРОПИИ РЕНЬИ
ПРИ СКЛЕИВАНИИ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИЙ1
Рассматривается задача о нахождении экстремальных значений энтропии Ре-
ньи дискретной случайной величины при условии, что фиксировано значение
α-склеивания этой величины с другой случайной величиной, имеющей заданное
распределение вероятностей.
DOI: 10.1134/S0134347519010029
Энтропия Реньи Hλ(P ) положительного порядка λ = 1 дискретного распределе-
ния вероятностей P = {p1, p2, . . . , pn} определяется равенством (см. [1, 2])
1
Hλ(P) =
ln
pλi, λ > 0, λ = 1.
(1)
1
i=1
Величину Hλ(P ) называют также энтропией Реньи дискретной случайной величи-
ны X с распределением вероятностей P . В случае, когда P = {p, 1-p}, вместо Hλ(P )
будем использовать обозначение hλ(p), т.е.
1
[
]
hλ(p) =
ln
pλ + (1 - p)λ
(2)
1
Заметим, что для любого P = {p1, p2, . . . , pn} и любого λ > 0, λ = 1, справедливы
неравенства
0 Hλ(P) lnn и Hλ(P) → H(P) при λ → 1,
где H(P ) = - pi ln pi - энтропия Шеннона.
i=1
Напомним также, что α-склеиванием двух дискретных распределений вероят-
ностей P = {p1, p2, . . . , pn} и Q = {q1, q2, . . ., qn} называется совместное распреде-
ление вероятностей PXY случайных величин X и Y со значениями в множестве
{1, 2, . . ., n}, такое что Pr{X = Y } = α, а маргинальные распределения, соответ-
ствующие этому PXY , равны, соответственно, PX = P и PY = Q.
Для фиксированных распределения вероятностей P = {p1, p2, . . . , pn} и действи-
тельных чисел λ и α, где λ > 0, λ = 1 и 0 α 1, введем величины
Hmin(P, λ, α) = inf
Hλ(Q),
(3)
Q
Hmax(P, λ, α) = supHλ(Q),
(4)
Q
1 Работа выполнена при частичной финансовой поддержке Российского фонда фундаментальных
исследований (номер проекта 19-01-00364).
51
где нижние и верхние грани в (3), (4) берутся по всевозможным распределениям
вероятностей Q = {q1, q2, . . . , qn}, для которых существует их α-склеивание с рас-
пределением P .
Заметим, что аналогичная задача для энтропии Шеннона рассматривалась в [3],
а подобная задача для энтропии Шеннона в случае, когда вместо условия существо-
вания α-склеивания P и Q вводилось условие на их вариационное расстояние, рас-
сматривалась в [4]. В настоящей статье получены явные формулы для Hmin(P, λ, α)
для всех возможных значений параметров P , λ и α. Для Hmax(P, λ, α) явные форму-
лы получены лишь для некоторого интервала значений параметра α, а для других
интервалов значений α получены лишь некоторые верхние и нижние границы. Сра-
зу заметим, что полученные здесь формулы для Hmin(P, λ, α) и Hmax(P, λ, α) вполне
аналогичны соответствующим формулам для подобных величин в случае энтропии
Шеннона, приведенных в [3], однако доказательство явных формул для Hmin(P, λ, α)
в данной статье существенно отличается (и много проще) доказательств соответству-
ющих формул в [3].
Переходя к формулировке результатов статьи, будем всегда считать, что распре-
деление вероятностей P = {p1, p2, . . . , pn}, n 2, задано, причем вероятности pi
упорядочены по убыванию, так что p1 p2 . . . pn > 0.
Предложение 1. Пусть распределение вероятностей P = {p1,p2,...,pn} и
действительные числа λ, λ > 0, λ = 1, и α, 0 α 1, заданы. Тогда
Если 0 α pn, то
Hmin(P, λ, α) = hλ(pn - α);
(5)
Если pk+1 < α pk, k = 1, 2, . . . , n - 1, то
pk + pk+1
hλ(α - pk+1), если pk+1 < α
,
Hmin(P, λ, α) =
2
(6)
pk + pk+1
hλ(pk - α),
если
pk;
2
Если
pi < α pi, k = 1, 2, . . ., n - 1, то
i=1
i=1
[
]
1
Hmin(P, λ, α) =
ln (1 + p1 - α)λ + pλi + (α - pi)λ
(7)
1
i=2
i=1
Доказательство этого предложения основано на использовании понятия вы-
пуклости функций по Шуру. Напомним основные нужные нам определения и факты
(см. [5]). Если x = (x1, . . . , xn) Rn , где Rn - n-мерное евклидово пространство,
то через x = (x1, . . . , x↓n) обозначается вектор из Rn , содержащий те же компо-
ненты, что и x, но записанные в порядке убывания, так что x1 x2 . . . x↓n.
Пусть x = (x1, . . . , xn) и y = (y1, . . . , yn) - два вектора из Rn. Говорят, что вектор x
мажорируется вектором y (или что y мажорирует x), и записывают x ≺ y, если
выполняются два условия:
x↓i
y↓i,
1 k n - 1,
(8)
i=1
i=1
x↓i =
y↓i.
(9)
i=1
i=1
52
Действительнозначная функция ϕ(·), заданная на множестве A ⊂ Rn, называется
выпуклой по Шуру, если из условия x ≺ y на A следует неравенство ϕ(x) ϕ(y).
Если же из условия x ≺ y на A следует ϕ(x) ϕ(y), то функция ϕ(·) называ-
ется вогнутой по Шуру. Если функция ϕ(·) выпукла по Шуру, то очевидно, что
функция(·) вогнута по Шуру.
Справедливо также следующее утверждение (см. [5]): если I ⊂ R - некоторый
интервал, а g : I → R - выпуклая (в обычном смысле) функция, то ϕ(x) = g(xi)
i=1
является выпуклой по Шуру функцией на In, т.е. x ≺ y ⇒ ϕ(x) ϕ(y). Из этого
утверждения немедленно следует, что энтропия Реньи Hλ(Q) при любом λ > 0,
λ = 1, является вогнутой по Шуру функцией от распределения вероятностей Q.
Поэтому для нахождения Hmin(P, λ, α) достаточно найти допустимое распределение
вероятностей Q = {q1, q2, . . ., q∗n} (т.е. распределение вероятностей, для которого
существует α-склеивание с заданным распределением P = {p1, p2, . . . , pn}), такое
что Q мажорирует любое другое допустимое распределение вероятностей Q. Любое
допустимое распределение вероятностей Q = {q1, q2, . . . , qn} является маргинальным
для некоторой допустимой матрицы совместного распределения (т.е. матрицы M =
= ∥pijni,j=1 с неотрицательными элементами pij , такими что
pij = pi, i = 1, . . ., n,
pii = α,
j=1
i=1
где P = {p1, p2, . . . , pn} - заданное распределение вероятностей).
Докажем теперь формулы (5)-(7).
1. Пусть 0 α pn. Покажем, что в этом случае распределение вероятностей
Q = {q1, q2, . . . , q∗n}, задаваемое допустимой матрицей M = ∥p∗ijni,j=1, где
α
для i = j = n,
pi
для всех i = n и j = n,
p∗ij =
(10)
pn - α
для i = n и j = j0,
0
в остальных случаях,
где j0 - любое натуральное число, меньшее n, мажорирует любое другое допусти-
мое распределение вероятностей Q = {q1, q2, . . . , qn}, откуда сразу будет следовать
справедливость формулы (5). Для этого, очевидно, достаточно доказать, что для
любого допустимого распределения вероятностей Q = {q1, q2, . . . , qn} справедливо
неравенство
max
qi 1 - pn + α.
(11)
1in
Действительно, для любой допустимой матрицы M = ∥pijni,j=1 и любого j, 1
jn, имеем
qj =
pij =
pij + pjj 1 - pj + α 1 - pn + α,
i=1
i: i=j
откуда и следует (11).
pk + pk+1
2. Пусть теперь pk+1 < α
для некоторого k = 1, 2, . . . , n - 1. В этом
2
случае распределение вероятностей Q = {q1, q2, . . . , q∗n}, задаваемое допустимой
53
i,j=1сэлементами
pi
для всех i = k + 1 и j = k + 1,
pk + pk+1 - α
для i = k и j = k + 1,
p∗ij =
(12)
α-pk+1
для i = j = k,
0
в остальных случаях,
мажорирует любое другое допустимое распределение вероятностей. Для доказатель-
ства этого утверждения заметим вначале, что
max
q∗i = 1 - α + pk+1,
1in
поскольку из условия
pk + pk+1
pk+1 < α
2
следует, что
1+pk+1α-pk+1.
Поэтому для доказательства того, что указанное выше распределение вероятно-
стей Q мажорирует любое другое допустимое распределение вероятностей Q =
{q1, q2, . . . , qn}, в рассматриваемом случае (а значит, и для доказательства первой
из формул в правой части (6)) достаточно показать, что
max
qi 1 - α + pk+1.
(13)
1in
Действительно, для любого допустимого Q = {q1, q2, . . . , qn}, очевидно, имеем
max
qi =
max
(1 - (pi - x) - (α - x)),
(14)
1in
i,xmin{pi,α}
если в матрице совместного распределения M = ∥pijni,j=1, задающего это распреде-
ление Q, элемент pii равен x. Оптимизируя правую часть (14) по i и x при заданных
ограничениях, легко устанавливаем, что
max
qi 1 - α + pk+1,
1in
что и доказывает (13).
pk + pk+1
3. Пусть
< α pk для некоторого k = 1,2,...,n - 1. В этом случае
2
распределение вероятностей Q = {q1, q2, . . . , q∗n}, задаваемое допустимой матрицей
M = ∥p∗ijni,j=1 с элементами
pi
для всех i = k и j = k,
pk - α
для i = k и некоторого j = k,
p∗ij =
(15)
α
для i = j = k,
0
в остальных случаях,
мажорирует любое другое допустимое распределение вероятностей Q = {q1, q2,
...,qn}. Доказательство этого утверждения вполне аналогично рассмотренному вы-
ше случаю 2. Отсюда сразу следует справедливость второй формулы в правой ча-
сти (6).
4. Пусть, наконец,
pi < α
pi для некоторого k = 1, 2, . . ., n - 1. В этом
i=1
i=1
случае снова легко проверить,что распределение вероятностей Q = {q1, q2, . . . , q∗n},
54
где
1 + p1 - α для i = 1,
pi
для i = 2, 3, . . . , k,
q∗i =
(16)
α - ps для i = k + 1,
s=1
0
для i = k + 2, . . . , n,
задаваемое допустимой матрицей M = ∥p∗ijni,j=1 с элементами
pi
для i = j = 1, 2, . . . , k,
α - ps для i = j = k + 1,
s=1
p∗ij =
(17)
ps - α для i = k + 1 и j = 1,
s=1
pi
для i = k + 2, . . . , n и j = 1,
0
в остальных случаях,
мажорирует любое другое допустимое распределение вероятностей Q = {q1, q2,
...,qn}. Отсюда следует справедливость формулы (7).
Следствие. Пусть F(P) = F(p1,p2,...,pn) - любая неотрицательная ограни-
ченная и вогнутая по Шуру функция от распределения вероятностей P
=
= {p1, p2, . . . , pn}, и пусть
Fmin(P, α) = minF(Q),
(18)
Q
где минимум берется по всевозможным распределениям вероятностей Q
=
= {q1, q2, . . . , qn}, для которых существует их α-склеивание с P. Тогда из доказа-
тельства предложения 1 следует, что оптимальные распределения вероятностей
Q = {q1, q2, . . . , q∗n} (на которых достигается минимум в правой части (18)) яв-
ляются маргинальными для совместных распределений вероятностей (10), (12),
(15) и (17) для соответствующих интервалов значений параметра α. В частно-
сти, это утверждение справедливо как для рассмотренного выше случая энтропии
Реньи, так и для энтропии Шеннона иэнтропии степени λ
(
)
Hλ(P) = (21)-1
pλi - 1
,
λ > 0, λ = 1.
i=1
Замечание 1. Отметим, что Hmin(P, λ, α) Hλ(P) для всех возможных значений
P = {p1,p2,...,pn} и α за исключением лишь случая, когда p1 > 1/2 и p2 < α < p1.
В этом последнем случае для некоторых значений p1, p2 и α может быть справедливо
противоположное неравенство Hmin(P, λ, α) > Hλ(P ), например, оно верно, если p1
достаточно велико, а α близко к 1/2. Действительно, легко проверить, что во всех
случаях (кроме указанного выше, когда p1 > 1/2 и p2 < α < p1) маргинальные рас-
пределения Q, задаваемые матрицами совместного распределения (10), (12), (15)
и (17) для соответствующих значений параметра α, мажорируют распределение P ,
откуда и следует, что Hmin(P, λ, α) Hλ(P).
В общем случае найти точное значение для Hmax(P, λ, α) не удается, но в следую-
щем предложении приводятся достаточные условия на параметры P и α, при кото-
рых Hmax(P, λ, α) принимает свое максимальное значение log n, а также приводятся
верхние и нижние границы для Hmax(P, λ, α) при других значениях параметров P
и α. В формулировке этого предложения используется функция fn(x, λ), 0 x 1,
55
λ > 0, λ = 1, задаваемая равенством
1
[
]
fn(x, λ) =
ln
xλ + (n - 1)1(1 - x)λ
(19)
1
Предложение 2. Пусть заданы распределение вероятностей P
= {p1, p2,
...,pn}, p1 p2 ... pn > 0, и величины λ, λ > 0, λ = 1, и α, 0 α 1.
Тогда справедливы следующие утверждения:
1
1
Если
-pnα
+ (n - 1)pn, то
n
n
Hmax(P, λ, α) = lnn;
(20)
1
1
Если p1 > 1 -
и 0α<p1 +
- 1, то
n
n
p1 - α
Hmax(P, λ, α) fn(a1, λ), где a1 =
;
(21)
n-1
1
Если 1 -
+ pn < α 1, то
n
α-pn
Hmax(P, λ, α) fn(a2, λ), где a2 =
;
(22)
n-1
1 - p1 - (n - 1)pn
1
Если
α
- pn, то
n
n
Hmax(P, λ, α) fn(b1, λ), где b1 = α + pn;
(23)
1
1
n-1
(n - 1)2
Если
+ (n - 1)pn α
+
p1 +
pn, то
n
n
n
n
Hmax(P, λ, α) fn(b2, λ), где b2 = α - (n - 1)pn.
(24)
Доказательство. Первое утверждение этого предложения следует из того,
что допустимое совместное распределение, задаваемое матрицей M = ∥pijni,j=1, где
αi
для i = j = 1, 2, . . . , n,
pij =
pi - αi
для i = 1, . . . , n и j ∈ {1, . . . , n} \ {i},
n-1
а параметры αi, i = 1, . . . , n, удовлетворяют условиям 0 αi pi и
αi = α, имеет
равномерное маргинальное распределение, так как
i=1
j
1
1 - pj - αi
qi =
pij =
+
=
,
i = 1,2,...,n,
n-1
n-1
n
i=1
если
1
1
-pnα
+ (n - 1)pn.
n
n
Доказательство остальных утверждений этого предложения (неравенств (21)-(24))
вполне аналогично доказательству соответствующих неравенств предложения 3 в [3]
и поэтому здесь не приводится.
Замечание 2. Нетрудно показать, что при всех возможных значениях P и α спра-
1
ведливо неравенство Hmax(P, λ, α) Hλ(P). Действительно, если α <
- pn, то
n
56
допустимое совместное распределение, задаваемое матрицей ∥pijni,j=1, где
α
при i = j = 1,
p1 - α
при i = 1 и j = n,
p2
при i = 2 и j = n - 1,
pij =
pi
при i = k и j = k - 1 для k = 3, 4, . . . , n - 1,
pn
при i = n и j = 1,
0
при остальных значениях i и j,
имеет маргинальное распределение Q = {q1, q2, . . . , qn} с qj =
pij, которое, как
i=1
легко убедиться, мажорируется распределением P , а значит,
Hmax(P, λ, α) Hλ(Q) Hλ(P).
1
Если же α >
+ (n - 1)pn, то допустимое совместное распределение, задаваемое
n
матрицей ∥p′ijni,j=1, где
αpi
при i = j = 1, . . . , n,
p′ij =
(1 - α)pi
при i = 1, . . . , n и j ∈ {1, . . . , n} \ {i},
n-1
также имеет маргинальное распределение Q = {q1, q2, . . . , q′n} с q′j =
p′ij, которое
i=1
тоже, как нетрудно убедиться, мажорируется распределением P , и поэтому снова
имеем
Hmax(P, λ, α) Hλ(Q) Hλ(P).
1
1
Наконец, если
-pnα
+ (n - 1)pn, то согласно предложению 2 имеем
n
n
Hmax(P, λ, α) = lnn Hλ(P)
при любом P .
Пример. Пусть n = 2 и P
= {p, 1 - p}, где p 1/2. В этом случае для
Hmax(P, λ, α) нетрудно получить явные выражения при всех возможных значени-
ях α, 0 α 1. А именно:
1
3
Hmax(P, λ, α) = ln2, если p -
α
- p,
(25)
2
2
1
Hmax(P, λ, α) = f2,(p - α, λ), если 0 α < p -
,
(26)
2
3
Hmax(P, λ, α) = f2(α + p - 1, λ), если
- p < α 1,
(27)
2
где fn(x, λ) определено в (19). Действительно, формула (25) немедленно следует
1
из (20), а формула (26) - из того, что при 0 α < p -
распределение вероятностей
2
Q = {1 - p + α,p - α}, как легко проверить, является допустимым и мажорирует-
ся любым другим допустимым распределением. Наконец, формула (27) следует из
3
того, что при
- p < α 1 распределение вероятностей Q = + p - 1,2 - α - p}
2
также является допустимым и тоже мажорируется любым другим допустимым рас-
пределением вероятностей.
57
СПИСОК ЛИТЕРАТУРЫ
1. Rényi A. On Measures of Entropy and Information // Proc. 4th Berkeley Sympos. on Mathe-
matical Statistics and Probability. Berkely, CA, USA. June 20 - July 30, 1960. Berkely: Univ.
of California Press, 1961. V. 1. P. 547-561.
2. Aczél J., Daróczy Z. On Measures of Information and Their Characterizations. New York:
Academic Press, 1975.
3. Прелов В.В. Об одной экстремальной задаче для энтропии и вероятности ошибки //
Пробл. передачи информ. 2014. Т. 50. № 3. С. 3-18.
4. Ho S.W., Yeung R.W. The Interplay between Entropy and Variational Distance // IEEE
Trans. Inform. Theory. 2010. V. 56. № 12. P. 5906-5929.
5. Marshall A.W., Olkin I., Arnold B.C. Inequalities: Theory of Majorization and Its Applica-
tions. New York: Springer, 2011.
Прелов Вячеслав Валерьевич
Поступила в редакцию
Институт проблем передачи информации
14.11.2018
им. А.А. Харкевича РАН
После доработки
prelov@iitp.ru
13.12.2018
Принята к публикации
09.01.2019
58