ПРОБЛЕМЫ ПЕРЕДАЧИ ИНФОРМАЦИИ
Том 57
2021
Вып. 1
УДК 621.391 : 519.72
© 2021 г.
В.В. Прелов
f -ДИВЕРГЕНЦИЯ И СКЛЕИВАНИЕ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИЙ1
Рассматривается задача о нахождении минимальных и максимальных зна-
чений f-дивергенции дискретных распределений вероятностей P и Q при усло-
вии, что заданы одно из этих распределений и величина их склеивания. Для
минимума f-дивергенции при указанных условиях получено явное выражение,
а для ее максимума - точное выражение, которое в общем случае не явля-
ется явным, но для многих частных случаев позволяет выписать как явные
формулы, так и простые верхние границы, являющиеся в некоторых случаях
оптимальными. Подобные явные формулы и верхние границы получены для
дивергенции Кульбака - Лейблера и χ2-дивергенции, являющихся важнейшими
частными случаями f-дивергенции.
Ключевые слова: f-дивергенция, дивергенция Кульбака - Лейблера, χ2-дивер-
генция, склеивание дискретных распределений вероятностей.
DOI: 10.31857/S0555292321010034
§ 1. Введение и формулировки основных результатов
Пусть P = {pi, i ∈ N } и Q = {qi, i ∈ N } - дискретные распределения ве-
роятностей со значениями в конечном множестве N = {1, 2, . . . , n}. Напомним, что
f-дивергенция Df (P ∥Q) распределения P относительно Q определяется равенством
(см. [1, 2])
(pi)
Df (P ∥Q) =
qif
,
(1)
qi
i∈N
где f : (0, ∞) R - выпуклая функция, такая что f(1) = 0 (в дальнейшем будем
всегда считать, что f(·) - дважды дифференцируемая функция, такая что f′′(x) > 0,
x = 1). При этом всегда по определению предполагается, что
)
(0
(a)
(a)
f (t)
0·f
= 0, f(0) = limf (u),
0·f
= limεf
= a lim
,
0
u↓0
0
ε↓0
ε
t→∞ t
где a = 0. Частными случаями f-дивергенции являются многие известные меры раз-
личия между распределениями вероятностей, используемые в теории информации,
теории вероятностей и математической статистике. Наиболее важными примерами
f -дивергенций являются дивергенция Кульбака - Лейблера (или просто диверген-
ция)
pi
D(P ∥ Q) =
pi log
= Df(P ∥Q)
qi
i∈N
1 Работа выполнена при частичной финансовой поддержке Российского фонда фундаментальных
исследований (номер проекта 19-01-00364).
64
при f(t) = t log t и χ2-дивергенция
(pi - qi)2
χ2(P ∥Q) =
= Df(P ∥Q)
qi
i∈N
при f(t) = (t-1)2, а также вариационное расстояние, дивергенция Хеллингера и др.
(см., например, [3, 4]).
Напомним также, что α-склеиванием дискретных распределений вероятностей
P = {pi, i ∈ N} и Q = {qi, i ∈ N} называется совместное распределение PXY
случайных величин X и Y со значениями в множестве N и маргинальными распре-
делениями PX = P и PY = Q, такое что Pr{X = Y } = α (см. [5]). В дальнейшем
величину склеивания распределений P и Q будем обозначать через s(P, Q).
В работе [6] рассматривалась задача о нахождении минимальных и максималь-
ных значений дивергенции Реньи Dλ(P ∥ Q) при условии, что заданы одно из рас-
пределений P или Q и величина их склеивания s(P, Q). В настоящей статье рассмат-
ривается аналогичная задача о нахождении минимальных и максимальных значе-
ний для произвольной f-дивергенции дискретных распределений вероятностей P
и Q, а также ее важнейших частных случаев - дивергенции Кульбака - Лейблера и
χ2-дивергенции, которые, например, используются при получении границ для ко-
эффициентов сжатия f-дивергенций [4]. Отметим, что задача о нахождении экс-
тремальных значений f-дивергенции Df (P ∥ Q), когда вместо условия α-склеивания
накладывалось условие на вариационное расстояние между P и Q, рассматривалась
в [7-9].
Для формулировки полученных результатов введем необходимые определения и
обозначения. Для заданных распределения вероятностей P = {pi, i ∈ N}, действи-
тельного числа α, 0 α 1, и выпуклой функции f(·), задающей f-дивергенцию
Df (P ∥Q), определим величину Dminf(P, α) равенством
Dminf(P, α) = min Df (P ∥Q),
(2)
Q: s(P,Q)=α
где минимум берется по всевозможным распределениям Q = {qi, i ∈ N }, для кото-
рых существует их α-склеивание с распределением P. Аналогично определяется и
величина Dminf(Q, α), если задано распределение Q = {qi, i ∈ N}, т.е.
Dminf(Q, α) = min Df (P ∥Q).
(3)
P:s(P,Q)=α
В случае, когда P = {p, 1-p} и Q = {q, 1-q}, вместо Df (P ∥Q) будем использовать
обозначение df (p∥q), т.е.
)
(p
(1-p)
df (p∥q) = qf
+ (1 - q)f
(4)
q
1-q
Заметим, что из свойств функции f(·) (выпуклости и равенства f(1) = 0) следует,
что df (p ∥ q) является выпуклой неотрицательной функцией как параметра p, так и
параметра q, причем df (p ∥ q) = 0 при p = q.
Теорема 1. Справедливы следующие равенства:
1
α
0,
если pmax
+
,
2
2
Dmin(P, α) =
(5)
f
α
df (pmax 1 - pmax + α), если pmax1
+
,
2
2
65
1
α
0,
если qmax
+
,
2
2
Dmin(Q, α) =
(6)
f
α
df (1 - qmax + α∥qmax), если qmax1
+
,
2
2
где pmax = maxpi и qmax = maxqi.
i∈N
i∈N
Доказательства этой и нижеследующих теорем приведены в § 2. Отметим, что
частный случай теоремы 1, когда f(t) = t log t или f(t) = - log t, т.е. для дивергенции
Кульбака - Лейблера, был доказан в [4].
Для формулировки следующей теоремы введем еще несколько определений. Для
заданных распределения вероятностей P = {pi, i ∈ N }, действительного числа α,
0 α 1, и выпуклой функции f(·), задающей f-дивергенцию Df(P ∥Q), определим
величину Dmaxf(P, α) равенством
Dmaxf(P, α) = max Df (P ∥Q),
(7)
Q: s(P,Q)=α
где максимум берется по всевозможным распределениям Q = {qi, i ∈ N }, для кото-
рых существует их α-склеивание с распределением P. Аналогично определяется и
величина Dmaxf(Q, α), если задано распределение Q = {qi, i ∈ N}, т.е.
Dmaxf(Q, α) = max Df (P ∥Q).
(8)
P: s(P,Q)=α
Всякое равенство
α = pi + β, где I ⊆ N,
(9)
i∈I
назовем допустимым (P, I)-представлением α, если либо β = 0, либо существует
индекс j ∈ N \ I, такой что 0 < β < pj . Аналогично определяется допустимое
(Q, I)-представление α, если задано распределение Q = {qi, i ∈ N } и параметр α,
0 α 1.
Всякое α-склеивание заданного распределения вероятностей P = {pi, i ∈ N }
с некоторым распределением Q = {qi, i ∈ N } задается с помощью квадратной мат-
рицы M = ∥pijni,j=1 с неотрицательными элементами pij , такой что
pij
= pi
j=1
для всех i ∈ N ,
pij = qj для всех j ∈ N и
pii = α . В этом случае положим
i=1
i=1
Df (M) = Df (P ∥Q). Аналогично (с заменой в предыдущем определении распределе-
ния P на Q и наоборот) задается α-склеивание данного распределения вероятностей
Q = {qi, i ∈ N} с некоторым распределением P = {pi, i ∈ N}.
Каждому допустимому (P, I)-представлению α сопоставим множество M(P, I)
матриц M = ∥pijni,j=1, осуществляющих α-склеивание заданного распределения ве-
роятностей P = {pi, i ∈ N } с некоторым распределением Q = {qi, i ∈ N } и облада-
ющих следующим свойством: на (главной) диагонали каждой такой матрицы стоят
числа pi и β, входящие в данное допустимое (P, I)-представление α, а все остальные
ненулевые элементы матрицы находятся в некотором столбце (будем называть такой
столбец главным) и, возможно, лишь один ненулевой элемент находится вне диаго-
нали и этого главного столбца. Аналогично, каждому допустимому (Q, I)-представ-
лению α сопоставляется множество M(Q, I) матриц M = ∥pijni,j=1, осуществляю-
щих α-склеивание заданного распределения вероятностей Q = {qi, i ∈ N } с некото-
рым распределением P = {pi, i ∈ N }.
Теорема 2. Для любого распределения вероятностей
P = {pi, i ∈ N}, p1p2... pn > 0,
66
и любого α, 0 α 1, справедливо равенство
Dmaxf(P, α) = max
max Df (M),
(10)
(P,I)
M∈M(P,I)
где первый максимум в правой части (10) берется по всем допустимым (P, I)-пред-
ставлениям α. В частности,
{∞, если α 1 - pn и f = ∞,
Dmaxf(P, α) =
(11)
KP , если α > 1 - pn,
где f = limf(t), а
t→∞ t
{
(
)
(
)
pn
pn-1
KP = max (α - 1 + pn)f
+ (1 - α + pn-1)f
,
α-1+pn
1+pn-1
(
)
(
)}
pn-1
pn
(α - 1 + pn-1)f
+ (1 - α + pn)f
(12)
α-1+pn-1
1+pn
Во многом аналогичная теорема справедлива и для величины Dmaxf(Q, α), опре-
деленной в (8).
Теорема 3. Для любого распределения вероятностей
Q = {qi, i ∈ N}, q1q2... qn > 0,
и любого α, 0 α 1, справедливо равенство
Dmaxf(Q, α) = max
max Df (M),
(13)
(Q,I)
M∈M(Q,I)
где первый максимум в правой части (13) берется по всем допустимым (Q, I)-пред-
ставлениям α. В частности,
{∞, если α 1 - qn и f(0) = ∞,
Dmaxf(Q, α) =
(14)
KQ, если α > 1 - qn,
где
{
)
(α-1+qn
(1+qn-1)
KQ = max qnf
+qn-1f
,
qn
qn-1
)
(α-1+qn-1
(1+qn)}.
qn-1f
+qnf
(15)
qn-1
qn
Как видно из формулировок теорем 2 и 3, формулы (10) и (13) не позволяют
для общего случая f-дивергенции выписывать явные выражения для Dmaxf(P, α)
при α 1 - pn и f < ∞ и для Dmaxf(Q, α) при α 1 - qn и f(0) < ∞. Однако
для многих конкретных f-дивергенций эти формулы позволяют получить как хо-
рошие явные верхние границы для Dmaxf(P, α) и Dmaxf(Q, α) (которые в некоторых
случаях являются оптимальными), так и явные выражения для них при малых зна-
чениях α. Ниже мы покажем это на примерах дивергенции Кульбака - Лейблера и
χ2-дивергенции.
Обозначим
Dmax(P, α) = max
D(P ∥ Q) = Dmaxf(P, α) при f(t) = t log t,
(16)
Q: s(P,Q)=α
67
Dmax(Q, α) = max
D(P ∥ Q) = Dmaxf(Q, α) при f(t) = t log t,
(17)
P: s(P,Q)=α
χ2max(P, α) = max
χ2(P ∥Q) = Dmaxf(P, α) при f(t) = (t - 1)2,
(18)
Q: s(P,Q)=α
χ2max(Q, α) = max
χ2(P ∥Q) = Dmaxf(Q, α) при f(t) = (t - 1)2,
(19)
P:s(P,Q)=α
где Dmaxf(P, α) и Dmaxf(Q, α) определены в (7) и (8) соответственно.
Теорема 4. Для величин Dmax(P,α) и Dmax(Q,α), определенных в (16) и (17),
справедливы следующие утверждения:
Если заданы распределение вероятностей P = {pi, i ∈ N }, p1 p2 . . . pn > 0,
и число α, 0 α 1, то
Dmax(P, α) =
∞,
если α 1 - pn,
pn
pn-1
(20)
=pn log
+ pn-1 log
,
если α > 1 - pn;
pn - 1 + α
pn-1 + 1 - α
Если заданы распределение вероятностей Q = {qi, i ∈ N }, q1 q2 . . . qn > 0,
и число α, 0 α 1, то
1+α-qn
qn - α
Dmax(Q, α) = (1 + α - qn)log
+ (qn - α) log
,
(21)
qn
qn-1
если α qn, и
qn - 1 + α
1+qn-1
Dmax(Q, α) = (qn - 1 + α)log
+ (1 - α + qn-1) log
,
(22)
qn
qn-1
если α > 1 - qn;
Для всех α, qn α 1 - qn, справедлива верхняя граница
1+qn
Dmax(Q, α) (1 - α + qn)log
,
(23)
qn
причем эта верхняя граница достигается, т.е. в (23) имеет место знак равен-
ства, если α =
aiqi + qn при некоторых ai ∈ {0, 1}.
i=1
Из этой теоремы можно также вывести следствие для величин Dmax(pmin, α) и
Dmax(qmin, α), определяемых равенствами
Dmax(pmin, α) =
max
D(P ∥ Q),
(24)
(P,Q): s(P,Q)=α, min
pi=pmin
i∈N
Dmax(qmin, α) =
max
D(P ∥ Q),
(25)
(P,Q): s(P,Q)=α, min
qi=qmin
i∈N
где максимумы в (24), (25) берутся по всевозможным распределениям P = {pi, i ∈ N }
и Q = {qi, i ∈ N} с заданными параметрами pmin > 0 в (24) и qmin > 0 в (25), таким
что s(P, Q) = α.
Следствие 1. Для величин Dmax(pmin) и Dmax(qmin), определенных в (24)
и (25), в случае |N | = n 3 справедливы следующие утверждения:
68
Для всех pmin > 0 и α, 0 α 1, справедливо равенство
∞,
если α 1 - pmin,
Dmax(pmin, α) =
p2min
(26)
pmin log
,
если α > 1 - pmin;
p2min - (1 - α)2
Для всех qmin > 0 и α, таких что 0 α qmin или 1-qmin α 1, справедливы
равенства
1
Dmax(qmin, α) = log
- h(1 + α - qmin), если α qmin,
(27)
qmin
[
(1+qmin)],
Dmax(qmin, α) = 2qmin log 2 - h
если α 1 - qmin,
(28)
2qmin
где h(x) = -x log x - (1 - x) log(1 - x), 0 x 1;
Для всех qmin > 0 и α, qmin < α < 1 - qmin, справедлива верхняя граница
1+qmin
Dmax(qmin, α) (1 - α + qmin)log
,
(29)
qmin
причем эта верхняя граница достигается, т.е. в (29) имеет место знак ра-
1
1
венства, если 2qmin α < 1 - qmin и qmin
, а также если qmin
и
n+1
n
α = kqmin, где k - любое целое, такое что 2 k n - 1.
Доказательство. Равенство(26) является прямым следствием формулы (20),
так как, с одной стороны,
pn-1
pn
pn-1 log
pn log
,
pn-1 + 1 - α
pn + 1 - α
а с другой стороны, если |N| 3, то всегда существует распределение вероятностей
P = {pi, i ∈ N}, такое что pn-1 = pn = pmin. Аналогично доказывается, что и ра-
венства (27), (28) являются прямыми следствиями соответствующих равенств (21),
(22).
Наконец, достижение равенства в верхней границе (29) при сформулированных
там условиях также следует из утверждения теоремы 4 о достижении верхней гра-
ницы (23). Действительно, нетрудно предъявить соответствующее распределение
вероятностей Q = {qi, i ∈ N}, зависящее от значения параметра α, для которого
имеет место равенство α =
aiqi + qn при некоторых ai ∈ {0, 1}. А именно, если
i=1
kqmin < α < (k + 1)qmin, где k = 2, 3, . . ., n - 2, или (n - 1)qmin < α < 1 - qmin, то
очевидно, что α =
qi + qn для распределения Q = {qi, i ∈ N}, компоненты qi
i=1
которого задаются равенствами
qmin
при i = 1, 2, . . . , k - 2,
α - (k - 1)qmin
при i = k - 1,
qi =
1
при i = k, k + 1, . . . , n - 1,
n-k
qmin
при i = n,
1
и обладают тем свойством, что все qi qmin, если qmin
n+1
69
Если же α = kqmin, где k = 2, 3, . . . , n - 1, то снова очевидно, что α =
qi +qn
i=1
для распределения Q = {qi, i ∈ N }, компоненты qi которого задаются равенствами
{qmin
при i = 1, 2, . . . , n - 1,
qi =
1 - (n - 1)qmin при i = n,
1
и при этом все эти qi qmin, если qmin
n
Теорема 5. Для величин χ2max(P,α) и χ2max(Q,α), определенных в (18) и (19),
справедливы следующие утверждения:
Если заданы распределение вероятностей P = {pi, i ∈ N }, p1 p2 . . . pn > 0,
и число α, 0 α 1, то
∞,
если α 1 - pn,
2
χ2
(P, α) =
(1 - α)
(1 - α)2
(30)
max
+
,
если α > 1 - pn;
α+pn -1
1+pn-1
Если заданы распределение вероятностей Q = {qi, i ∈ N }, q1 q2 . . . qn > 0,
и число α, 0 α 1, то
(1 + α - qn)2
(qn - α)2
+
- 1, если α qn,
qn
qn-1
χ2max(Q, α) =
(31)
(1 - α)2
(1 - α)2
+
,
если α 1 - qn;
qn
qn-1
Для всех α, qn < α < 1 - qn, справедлива верхняя граница
2
(1 - α)
χ2max(Q, α)
+ 1 - α,
(32)
qn
причем эта верхняя граница достигается, т.е. в (32) имеет место знак равен-
ства, если α = qn +
aiqi при некоторых ai ∈ {0, 1}.
i=1
Из этой теоремы также можно вывести приведенное ниже следствие (подобное
следствию 1) для величин χ2max(pmin, α) и χ2max(qmin, α), определяемых равенствами
χ2max(pmin, α) =
max
χ2(P ∥Q),
(33)
(P,Q): s(P,Q)=α, min
pi=pmin
i∈N
χ2max(qmin, α) =
max
χ2(P ∥Q),
(34)
(P,Q): s(P,Q)=α, min
qi=qmin
i∈N
где максимумы в (33), (34) берутся по всевозможным распределениям P = {pi, i ∈ N }
и Q = {qi, i ∈ N} с заданными параметрами pmin > 0 в (33) и qmin > 0 в (34), таким
что s(P, Q) = α.
Следствие 2. Для величин χ2max(pmin) и χ2max(qmin), определенных в (33)
и (34), в случае |N | = n 3 справедливы следующие утверждения:
Для всех pmin > 0 и α, 0 α 1, справедливо равенство
∞,
если α 1 - pmin,
2
χ2
max
(pmin, α) =
2pmin(1 - α)
(35)
,
если α > 1 - pmin;
p2min - (1 - α)2
70
Для всех qmin > 0 справедливо равенство
(1 + α - qmin)2 + (qmin - α)2
- 1, если α qmin,
qmin
χ2max(qmin, α) =
(36)
2(1 - α)2
,
если α 1 - qmin;
qmin
Для всех qmin > 0 и α, qmin < α < 1 - qmin, справедлива верхняя граница
2
(1 - α)
χ2max(qmin, α)
+ 1 - α,
(37)
qmin
причем эта верхняя граница достигается, т.е. в (37) имеет место знак ра-
1
1
венства, если 2qmin α < 1 - qmin и qmin
, а также если qmin
и
n+1
n
α = kqmin, где k - любое целое, такое что 2 k n - 1.
Доказательство этого следствия вполне аналогично приведенному выше доказа-
тельству следствия 1 и поэтому здесь не приводится.
§ 2. Доказательства
Доказательство теоремы 1. Доказательстворавенств (5) и (6) проводится
вполне аналогично. Поэтому докажем, например, первое из них. Для доказательства
того, что Dminf(P, α) = 0 при α 2pmax -1 воспользуемся следующим утверждением
(см. [3, теорема 1]): если P = {pi, i ∈ N } и Q = {qi, i ∈ N } - два распределения
вероятностей, а α, 0 α 1, - некоторое действительное число, то α-склеивание P
и Q (т.е. такое, что s(P,Q) = α) существует тогда и только тогда, когда
{x, если x 0,
max[pi + qi - 1]+ α
min{pi, qi}, где [x]+ =
i∈N
0, если x 0.
i∈N
Из этого сразу следует, что Dminf(P, α) = 0, если pmax 1/2 + α/2, так как в этом
случае существует α-склеивание распределения P с собой, а Df (P ∥P) = 0, так как
по предположению f(1) = 0.
Поэтому надо доказать лишь второе из равенств в (5), когда предполагается,
что 0 α 2pmax - 1. Для этого вначале заметим, что для любых распределений
вероятностей P = {pi, i ∈ N} и Q = {qi, i ∈ N} справедливо неравенство
Df (P ∥Q) df (pi ∥qi) для любых i ∈ N,
(38)
где df (· ∥ ·) определено в (4). Действительно, пользуясь свойством выпуклости функ-
ции f(t), имеем
(
)
pi
(pj)
Df (P ∥Q) = qif
+
qjf
=
qi
qj
j: j=i
(
)
pi
qj
(pj)
=qif
+ (1 - qi)
f
qi
1-qi
qj
j: j=i
(
)
(
)
pi
pj
qif
+ (1 - qi)f
= df(pi ∥qi).
qi
1-qi
j: j=i
Предположим теперь, что Q = {qi, i ∈ N } - некоторое распределение вероятностей,
для которого при заданном α, 0 α 2pmax - 1, существует его α-склеивание с
71
распределением P = {pi, i ∈ N }, у которого, для определенности, pmax = p1. Пусть
также матрица M = ∥pijni,j=1 задает совместное распределение, осуществляющее
это α-склеивание P и Q, т.е.
pij = pi для всех i ∈ N,
pij = qj для всех j ∈ N
j=1
i=1
и pii = α. Тогда, воспользовавшись неравенством (38), получаем
i=1
Df (P ∥Q) df (p1 ∥q1) df (pmax1 - pmax + α).
(39)
Второе неравенство в (39) следует из того, что функция df (p1 ∥ q1) убывает по q1
при q1 p1, а в нашем случае q1 α + 1 - p1 p1, так как
q1 p11 +
pi α + 1 - p1 p1,
i=2
поскольку 0 α 2p1 - 1.
Поэтому для доказательства второго равенства в (5) достаточно найти распре-
деление вероятностей Q = {qi, i ∈ N }, для которого существует его α-склеивание
(при 0 α 2pmax - 1) с заданным распределением P = {pi, i ∈ N }, и такое что
Df (P ∥Q) = df (pmax1 - pmax + α).
Действительно, легко убедиться, что такое распределение Q = {qi, i ∈ N} явля-
ется маргинальным для совместного распределения P и Q, осуществляющего их
α-склеивание и задаваемого матрицей M = ∥pijni,j=1 с компонентами
α при i = j = 1,
cpj при i = 1 и j ∈ N \ {1},
pij =
pi
при i ∈ N \ {1} и j = 1,
0
в остальных случаях,
p1 - α.
где параметр c =
1 - p1
Доказательство теоремы 2. Прежде всего заметим, что в рассматрива-
емом случае, когда задано распределение вероятностей P = {pi, i ∈ N } и пред-
полагается, что minpi = pn > 0, то из определения (1) следует, что для любого
i
распределения Q = {qi, i ∈ N }, которое имеет хотя бы одно qi = 0, справедливо
равенство
(pi)
Df (P ∥Q) =
qif
+f
pi,
(40)
q
i
i: qi>0
i: qi=0
где f = limf(t). Поэтому, если существует матрица M = ∥pijni,j=1, осуществ-
t→∞ t
ляющая α-склеивание распределения P с некоторым распределением Q, у которой
имеется столбец, целиком состоящий из нулей (т.е. некоторое qi = 0), а f =,
то в этом случае Dmaxf(P, α) =. Очевидно, что такая матрица всегда существует,
если α 1 - pn, т.е. в этом случае справедливо первое равенство в (11). Поэтому
в дальнейшем при доказательстве теоремы 1 всегда будет предполагаться, что либо
f < ∞, либо, если f =, то α > 1 - pn.
Для доказательства формулы (10) нужно показать, что существует оптималь-
ная матрица M = ∥pijni,j=1 (т.е. матрица, для которой Df (M) = Dmaxf(P, α)), осу-
ществляющая α-склеивание заданного распределения вероятностей P = {pi, i ∈ N}
72
с некоторым распределением Q = {qi, i ∈ N } и принадлежащая множеству M(P, I)
для некоторого допустимого (P, I)-представления заданного числа α.
В дальнейшем, для краткости, когда речь идет о некоторой матрице, будем всегда
считать, что эта матрица осуществляет α-склеивание заданного распределения ве-
роятностей P = {pi, i ∈ N } с некоторым распределением Q = {qi, i ∈ N }. Докажем
вначале, что существует оптимальная матрица, у которой все ненулевые элемен-
ты (за исключением, возможно, лишь одного) расположены в некотором (главном)
столбце и на (главной) диагонали.
Пусть k-й столбец матрицы M = ∥pijni,j=1 таков, чтоqk
= max
qi . Покажем, что
pk
i∈N pi
Df (M) можно увеличить, если к каждому элементу (кроме диагонального) этого
k-го столбца прибавить все элементы соответствующей строки, кроме диагональ-
ного. Действительно, для этого достаточно доказать, что Df (M(x)) > Df (M), где
M (x) = ∥pij (x)ni,j=1 - матрица с элементами
pℓ k + x при i = и j = k,
pij(x) =
pℓm - x при i = и j = m,
pij
в остальных случаях,
где 0 < x pℓm, а и m - любые индексы, такие что = m, = k и m = k. Имеем
[Df (M(x)]′x = [f(u) - uf(u)] - [f(v) - vf(v)],
где
pk
pm
u=
,
v=
qk + x
qm - x
pk
Замечая теперь, что u < v, так как x > 0, а
pm по условию, мы видим, что
qk
qm
f (u) - uf(u) убывает по u (так как f(·) - выпуклая функция), а поэтому Df (M(x))
возрастает по x, и значит, Df (M(x)) > Df (M(0)) = Df(M).
Аналогично доказывается, что Df (M) можно увеличить, если все элементы k
qk
qi
строки (когда
= max
), кроме диагонального, прибавить к одному из них. Оче-
pk
i∈N pi
видно, что без ограничения общности всегда можно считать, что если k-й столбец
матрицы M = ∥pijni,j=1 является главным, тоqk
= max
qi .
pk
i∈N pi
Чтобы доказать, что существует оптимальная матрица, принадлежащая неко-
торому множеству M(P, I), остается лишь показать, что существует оптимальная
матрица, у которой на диагонали стоят некоторые числа pi, i ∈ N , а также, возмож-
но, одно число β, 0 < β < pj , для некоторого j ∈ N , и нули (последнее возможно,
лишь если α 1-pn). Для этого достаточно доказать, что любая матрица, у которой
на диагонали стоят по крайней мере два элемента, отличные от нуля и некоторых pi,
i ∈ N, не может быть оптимальной.
Действительно, пусть M = ∥pijni,j=1 - некоторая матрица, у которой на диагона-
ли стоят два элемента pℓℓ и pmm, = m, такие что 0 < pℓℓ < p и 0 < pmm < pm. По-
кажем, что в этом случае существует другая матрица M(x), такая что Df (M(x)) >
> Df(M). Для этого необходимо рассмотреть два различных случая: когда ни pℓℓ,
ни pmm не принадлежат главному столбцу матрицы M и когда либо pℓℓ, либо pmm
принадлежат ему. Оба случая анализируются вполне аналогично. Поэтому рассмот-
рим, например, первый из них, когда в матрице M главным столбцом является k-й,
q
а = k и m = k. Пусть для определенности
qm . В этом случае рассмотрим
p
pm
73
матрицу M(x) = ∥pij (x)ni,j=1 с элементами
pℓℓ + x
при i = j = ℓ,
pmm - x
при i = j = m,
pij(x) =
pℓk - x
при i = и j = k,
pmk + x
при i = m и j = k,
pij
в остальных случаях,
где x > 0 достаточно мало. Тогда, очевидно, имеем
q(x)
q + x
qm(x)
qm - x
qi(x)
qi
=
>
=
и
=
для всех i = и i = m.
p(x)
p
pm(x)
pm
pi(x)
pi
Поэтому, как мы видели выше, Df (M(x)) возрастает по x, и значит, Df(M(x)) >
> Df(M). Таким образом, мы доказали, что существует оптимальная матрица, при-
надлежащая множеству M(P, I) при некотором допустимом (P, I)-представлении
числа α. Отсюда сразу следует справедливость формулы (10).
Для доказательства второго из равенств в (11) заметим, что в данном случае
предполагается, что компоненты pi распределения P = {pi, i ∈ N } упорядочены по
убыванию и α > 1 - pn. Поэтому из формулы (10) сразу следует, что оптимальную
матрицу следует искать среди матриц M = ∥pijni,j=1, у которых на диагонали стоят
числа pi, i ∈ N \ {k}, и pk - (1 - α) при некотором k, вне диагонали в некотором j
(j = k) столбце стоит число 1 - α, а все остальные элементы матрицы равны нулю.
Для такой матрицы
(
)
(
)
pk
pj
Df (M) = (pk + α - 1)f
+ (1 - α + pj )f
pk + α - 1
1+pj
Замечая теперь, что, как нетрудно убедиться, функции
(
)
(
)
pk
pj
(pk + α - 1)f
и
(1 - α + pj )f
pk + α - 1
1+pj
убывают по pk и pj соответственно (здесь существенно, что в соответствии с опреде-
лением f-дивергенции выпуклая функция f(·) такова, что f(1) = 0), мы видим, что
для максимума Df (M) среди подобных матриц M, т.е. для Dmaxf(P, α), справедливо
второе из равенств (11), где KP определено в (12).
Отметим, что хотя в общем случае нельзя сказать, какое из двух выражений в
определении KP является максимальным, однако во многих частных случаях f-ди-
вергенции это можно сделать. В частности, это удается сделать для дивергенции
Кульбака - Лейблера и χ2-дивергенции (см. доказательства теорем 4 и 5 ниже).
Доказательство теоремы 3. Прежде всего заметим, что в рассматрива-
емом случае, когда задано распределение вероятностей Q = {qi, i ∈ N } и предпо-
лагается, что minqi = qn > 0, то вместо (40) из определения (1) следует, что для
i
любого распределения P = {pi, i ∈ N }, которое имеет хотя бы одно pi = 0, имеет
место равенство
(pi)
Df (P ∥Q) =
qif
+ f(0)
qi,
(41)
q
i
i: pi>0
i: pi=0
а тогда снова очевидно (как и при доказательстве теоремы 2), что справедливо пер-
вое из равенств в (14). Дальнейшее доказательство этой теоремы вполне аналогично
приведенному выше доказательству теоремы 2 и поэтому здесь не приводится.
74
Доказательство теоремы
4.
1. Докажем вначале равенство (20). Так
как дивергенция Кульбака - Лейблера D(P ∥ Q) является f-дивергенцией при f(t) =
= tlogt, то равенство (20) является следствием соотношения (11), поскольку в дан-
ном случае f =, а величина KP (см. (12)), как нетрудно убедиться, равна
pn
pn-1
pn log
+ pn-1 log
pn - 1 + α
pn-1 + 1 - α
Действительно, для этого следует лишь заметить, что разность первого и второго
выражений в (12) при f(t) = t log t убывает по α, а при α = 1 она равна нулю.
2. Докажем теперь равенства (21) и (22). Из общей формулы (13) теоремы 3
следует, что в случае, когда α qn, существует оптимальная матрица (осуществля-
ющая α-склеивание заданного распределения вероятностей Q = {qi, i ∈ N } с неко-
торым распределением P = {pi, i ∈ N}), находящаяся среди матриц
M1(k, ℓ) =
p(1)
n
,
M2(k, ℓ) =
p(2)
n
,
M3(k, ℓ, m) =
p(3)
n
ij i,j=1
ij i,j=1
ij i,j=1
(где k, и m - всевозможные различные между собой числа, принадлежащие мно-
жеству N ) с элементами
α
при i = j = k,
qi
при i ∈ N \ {k} и j = k,
p(1)ij =
(42)
qk - α
при i = k и j = ℓ,
0
в остальных случаях,
qi
при i ∈ N \ {k, ℓ} и j = k,
q - α
при i = и j = k,
p(2)ij =
qk
при i = k и j = ℓ,
(43)
α
при i = j = ℓ,
0
в остальных случаях,
qi
при i ∈ N \ {k, m} и j = k,
qm - α
при i = m и j = k,
p(3)ij =
qk
при i = k и j = ℓ,
(44)
α
при i = j = m,
0
в остальных случаях.
Заметим, что в каждой из этих матриц k-й столбец является главным. Таким обра-
зом, имеем
Dmax(Q, α) = max{D(M1(k, ℓ)), D(M2(k, ℓ)), D(M3(k, ℓ, m))},
k,ℓ,m
где
1+α-qk
qk - α
D(M1(k, ℓ)) = (1 + α - qk) log
+ (qk - α) log
,
qk
q
1-α-qk
qk + α
D(M2(k, ℓ)) = (1 - α - qk) log
+ (qk + α) log
,
qk
q
1-α-qk
qk
α
D(M3(k, ℓ, m)) = (1 - α - qk) log
+ qk log
+ αlog
qk
q
qm
Очевидно, что
max
D(M3(k, ℓ, m)) maxD(M2(k, ℓ)),
k,ℓ,m
k,ℓ
75
и поскольку D(M1(k, ℓ)) и D(M2(k, ℓ)) убывают по q и являются выпуклыми функ-
циями от qk, то
Dmax(Q, α) = max{D(Mi(n - 1, n)), D(Mi(1, n)), D(Mi(n, n - 1)), i = 1, 2}.
Легко видеть, что
D(M1(1, n)) max{D(M1(n - 1, n)), D(M2(n, n - 1))},
D(M2(1, n)) max{D(M2(n - 1, n)), D(M1(n, n - 1))},
а поэтому для доказательства равенства (21) (правая часть которого совпадает с
выражением для D(M1(n, n-1)) ) необходимо доказать, что каждая из трех величин
D(M1(n - 1, n)), D(M2(n - 1, n)) и D(M2(n, n - 1)) не превосходит D(M1(n, n - 1)).
Неравенство D(M1(n, n-1)) D(M1(n-1, n)) является следствием того, что раз-
ность D(M1(n, n - 1)) - D(M1(n - 1, n)), как легко проверить, возрастает по α, а при
α = 0 она положительна. Действительно, етрудно убедиться, что эта последняя
разность [D(M1(n, n - 1)) - D(M1(n - 1, n))]
является убывающей функцией qn,
α=0
а при максимальном значении qn, равном qn-1, она равна нулю.
Доказательство двух оставшихся неравенств D(M1(n, n - 1)) D(M2(n - 1, n))
и D(M1(n, n-1)) D(M2(n, n-1)) проводится вполне аналогично. Таким образом,
равенство (21) доказано.
Справедливость равенства (22) легко следует из соотношения (14) теоремы 3, так
как в рассматриваемом случае, когда f(t) = t log t, величина KQ (см. (15)) равна
qn - 1 + α
1+qn-1
(qn - 1 + α) log
+ (1 - α + qn-1) log
qn
qn-1
Действительно, нетрудно убедиться, что разность первого и второго выражений
в (15) убывает по α, а при α = 1 она равна нулю.
3. Докажем теперь верхнюю границу (23). Для этого необходимо рассмотреть три
типа матриц M = ∥pijni,j=1, принадлежащих одному из множеств M(Q, I), когда:
а) в главном столбце матрицы на диагонали стоит некоторое qk, k ∈ I, входящее в
одно из допустимых (Q, I)-представлений α в виде α = qi + β;
i∈I
б) в главном столбце матрицы на диагонали стоит ноль;
в) в главном столбце матрицы на диагонали стоит число β, входящее в одно из
допустимых (Q, I)-представлений α в виде α = qi + β.
i∈I
Согласно общей формуле (13) среди таких матриц находится оптимальная, и нам
надо показать, что для всех таких матриц M справедлива верхняя граница
1+qn
D(M) (1 - α + qn) log
qn
при всех α, qn α 1 - qn. Рассмотрим вкратце доказательства этой границы для
каждого из этих трех типов матриц.
а) Если в главном столбце матрицы на диагонали стоит некторое qk, k ∈ I,
входящее в одно из допустимых (Q, I)-представлений α в виде α =
qi+β, а β стоит
на диагонали в j-м столбце, то для такой матрицы
i∈I
1+qk
β
1+qn
D(M) = (1 - α + qk) log
+ β log
(1 - α + qn) log
(45)
qk
qj
qn
Действительно, неравенство в этом соотношении следует из того, что функция
1+qk
(1 - α + qk) log
qk
76
β
убывает по qk, а β log
0, так как 0 β < qj по условию (Q, I)-допустимого
qj
представления α. Заметим сразу, что в (45) вместо неравенства справедливо равен-
ство (а значит, и равенство в формуле (23)), если k = n и β = 0, т.е. если существует
(Q, I)-представление α вида α = qn +
aiqi при некоторых ai ∈ {0, 1}.
i=1
б) Если в главном (k-м) столбце матрицы M на диагонали стоит ноль, а число β,
входящее в одно из допустимых (Q, I)-представлений α, стоит на диагонали в j
столбце, то нетрудно видеть, что при любом расположении элемента qk в матрице M
величину D(M) можно оценить сверху следующим образом:
{
}
1-α-qk
qk + qj
D(M) max
(1 - α - qk) log
+ (qk + qj ) log
(46)
(k,j): k=j
qk
qj
Полагая
1-α-qk
qk + qj
g(α, qk, qj ) = (1 - α - qk) log
+ (qk + qj ) log
,
qk
qj
заметим, что разность
1+qn
(1 - α + qn) log
- g(α, qk, qj)
qn
является убывающей функцией α при любых qk и qj , а при максимальном значении
α (если фиксировано любое qk), равном 1 - qk, имеем
[
]
1+qn
(1 - α + qn) log
- g(α, qk, qj)
=
qn
α=1-qk
qn + qk
qj + qk
= (qn + qk) log
- (qj + qk) log
0,
qn
qj
так как (qj + qk) log
qj + qk является убывающей функцией qj . Поэтому из (46) сле-
qj
дует, что для рассматриваемого класса матриц M (у которых в главном столбце на
диагонали стоит ноль) также справедливо доказываемое неравенство
1+qn
D(M) (1 - α + qn) log
qn
в) Наконец, если в главном (k-м) столбце матрицы M на диагонали стоит число β,
входящее в одно из допустимых (Q, I)-представлений α, то снова нетрудно видеть,
что при любом расположении элемента qk - β в матрице M величину D(M) можно
оценить сверху следующим образом:
{
1 - α - qk + 2β
D(M) max
(1 - α - qk + 2β) log
+
(k,j): k=j
qk
}
qk + qj - β
+ (qk + qj - β) log
(47)
qj
Замечая теперь, что максимизируемая в правой части (47) функция является вы-
пуклой относительно β, приходим к выводу, что максимум правой части (47) дости-
гается либо при β = 0, либо при β = qk, что сводит задачу к рассмотренным выше
случаям а) и б). На этом доказательство верхней границы (23) заканчивается.
77
Доказательство теоремы 5. 1. Равенство (30) и второе из равенств в (31)
(где α 1 - qn) являются прямыми следствиями формул (11), (12) и (14), (15) для
рассматриваемого случая f(t) = (t - 1)2.
2. Доказательство первого из равенств в (31) (где α qn) в основном следует
схеме доказательства формулы (21) теоремы 4, и поэтому мы опишем его лишь
вкратце.
Оптимальную матрицу, осуществляющую α-склеивание заданного распределе-
ния вероятностей Q = {qi, i ∈ N } с некоторым распределением P = {pi, i ∈ N },
снова следует искать среди матриц
n
n
n
M1(k, ℓ) =
p(1)
,
M2(k, ℓ) =
p(2)
,
M3(k, ℓ, m) =
p(3)
ij i,j=1
ij i,j=1
ij i,j=1
с элементами, заданными равенствами (42)-(44), которые определяют χ2-диверген-
ции следующих трех типов:
2
(1 + α - qk)
(qk - α)2
χ2(M1(k, ℓ)) =
+
- 1,
qk
q
2
(1 - α - qk)
(qk + α)2
χ2(M2(k, ℓ)) =
+
- 1,
qk
q
2
(1 - α - qk)
q2k
α2
χ2(M3(k, ℓ, m)) =
+
+
- 1,
qk
q
qm
где k, и m - всевозможные различные между собой числа, принадлежащие мно-
жеству N . Так как очевидно, что
max
χ2(M3(k, ℓ, m)) maxχ2(M2(k, ℓ)),
k,ℓ,m
k,ℓ
а χ2(M1(k, ℓ)) и χ2(M2(k, ℓ)) являются выпуклыми функциями относительно qk и
убывающими относительно q, то рассуждения, приведенные при доказательстве
в пункте 2 теоремы 4, здесь полностью сохраняются (с соответствующей заменой
величин D(Mi(· , ·)) на χ2(Mi(· , ·)) ) и показывают, что в рассматриваемом случае
α qn имеем
{
}
χ2max(Q, α) = max
χ2(Mi(n, n - 1)), χ2(Mi(n - 1, n)), i = 1, 2
=
= χ2(M1(n, n - 1)),
что и доказывает первое из равенств в (31).
3. Доказательство верхней границы (32) также в основном следует схеме доказа-
тельства верхней границы (23) в теореме 4. Снова нам необходимо доказать, что для
трех типов матриц M = ∥pijni,j=1, принадлежащих одному из множеств M(Q, I) и
введенных в пункте 3 доказательства теоремы 4, справедлива верхняя граница (32),
т.е. для всех таких матриц M справедливо неравенство
2
(1 - α)
χ2(M)
+ 1 - α,
qn
если qn α 1 - qn. Докажем это утверждение.
а) Если в главном столбце матрицы M на диагонали стоит неоторое qk, k ∈ I,
входящее в одно из допустимых (Q, I)-представлений α в виде α = qi+β, а β стоит
i∈I
78
на диагонали в j-м столбце, то для такой матрицы
p2i
(1 - α + qk)2
β2
χ2(M) =
-1=
+
+
qi - 1 =
qi
qk
qj
i=1
i: pi=qi
2
(1 - α)
β2
(1 - α)2
=
+1+
+ 1 - α,
qk
qj
qn
так как 0 β < qj по условию (Q, I)-допустимого представления α. Снова замечаем,
что вместо вышеприведенного неравенства имеет место равенство, если β = 0 и
k = n, т.е. если существует (Q,I)-представление α вида α = qn +
aiqi при любых
ai ∈ {0, 1}.
i=1
б) Если в главном (k-м) столбце матрицы M на диагонали стоит ноль, а число β,
входящее в одно из допустимых (Q, I)-представлений α, стоит на диагонали в j
столбце, то нетрудно видеть, что при любом расположении элемента qk в матрице M
величину χ2(M) можно оценить сверху следующим образом:
}
2
{ (1 - α)
q2k
(1 - α)2
χ2(M) max
+
- 3(1 - α - qk)
+ 1 - α.
(48)
(k,j): k=j
qk
qj
qn
Действительно, справедливость второго неравенства в (48) следует из того, что раз-
ность
2
(1 - α)2
(1 - α)2
q
k
+1-α-
-
+ 3(1 - α - qk),
qn
qk
qj
как легко убедиться, является убывающей функцией α при любых qk и qj , а при
максимальном значении α = 1 - qk (так как на диагонали в главном k-м столбце
матрицы стоит ноль) эта разность неотрицательна.
в) Если в главном (k-м) столбце матрицы M на диагонали стоит число β, входя-
щее в одно из допустимых (Q, I)-представлений α, то снова нетрудно видеть, что при
любом расположении элемента qk в матрице M величину χ2(M) можно оценить
сверху следующим образом:
}
2
{ (1 - α - qk + 2β)
(qk + qj - β)2
χ2(M) max
+
+α-β-qj -1 .
(49)
(k,j): k=j
qk
qj
Поскольку максимизируемая в правой части (49) функция является выпуклой от-
носительно β, то максимум правой части (49) достигается либо при β = 0, либо при
β = qk, что, как нетрудно убедиться, сводит задачу к рассмотренным выше случаям
а) и б).
СПИСОК ЛИТЕРАТУРЫ
1. Csiszár I. Information-type Measures of Difference of Probability Distributions and Indirect
Observations // Studia Sci. Math. Hungar. 1967. V. 2. P. 299-318.
2. Ali S.M., Silvey S.D. A General Class of Coefficients of Divergence of One Distribution from
Another // J. Roy. Statist. Soc. Ser. B. 1966. V. 28. № 1. P. 131-142. https://www.jstor.
org/stable/2984279
3. Sason I., Verdú S. f-Divergence Inequalities // IEEE Trans. Inform. Theory. 2016. V. 62.
№ 11. P. 5973-6006. https://doi.org/10.1109/TIT.2016.2603151
4. Макур А., Чжен Л. Сравнение коэффициентов сжатия для f-дивергенций // Пробл. пе-
редачи информ. 2020. Т. 56. № 2. С. 3-62. https://doi.org/10.1134/S0134347520020011
79
5. Прелов В.В. О склеивании вероятностных распределений и оценивании дивергенции
через вариацию // Пробл. передачи информ. 2017. Т. 53. № 3. С. 16-22. http://mi.
mathnet.ru/ppi2239
6. Прелов В.В. О некоторых оптимизационных задачах для дивергенции Реньи // Пробл.
передачи информ. 2018. Т. 54. № 3. С. 36-53. http://mi.mathnet.ru/ppi2271
7. Gilardoni G.L. On the Minimum f-Divergence for Given Total Variation // C. R. Math.
Acad. Sci. Paris. 2006. V. 343. № 11-12. P. 763-766. https://doi.org/10.1016/j.crma.
2006.10.027
8. Gilardoni G.L. On Pinsker’s and Vajda’s Type Inequalities for Csiszár’s f-Divergences //
IEEE Trans. Inform. Theory. 2010. V. 56. № 11. P. 5377-5386. https://doi.org/10.1109/
TIT.2010.2068710
9. Прелов В.В. О максимальных значениях f-дивергенции и дивергенции Реньи при за-
данном вариационном расстоянии // Пробл. передачи информ. 2020. Т. 56. № 1. С. 3-15.
https://doi.org/10.1134/S0134347520010015
Прелов Вячеслав Валерьевич
Поступила в редакцию
Институт проблем передачи информации
17.11.2020
им. А.А. Харкевича РАН
После доработки
prelov@iitp.ru
04.01.2021
Принята к публикации
11.01.2021
80