Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 270-288

ГРАФОВЫЕ МОДЕЛИ ДЛЯ КОНТЕКСТНОГО ПРОГНОЗИРОВАНИЯ НАМЕРЕНИЙ В ДИАЛОГОВЫХ СИСТЕМАХ

Д. П. Кузнецов 1*, Д. Р. Леднева 1**

1 Московский физико-технический институт (национальный исследовательский университет)
Долгопрудный, Московская обл., Россия

* E-mail: kuznetsov.den.p@phystech.edu
** E-mail: da.led@mail.ru

Поступила в редакцию 31.08.2023
После доработки 15.09.2023
Принята к публикации 15.10.2023

Полный текст (PDF)

Аннотация

В статье представлена инновационная методология прогнозирования намерений в диалоговых системах на основе графового подхода. Методология заключается в создании графовых структур, представляющих диалоги, с целью отображения контекстной информации. На основе анализа результатов, полученных на различных наборах данных с открытым и закрытым доменом, авторы демонстрируют, что использование графовых моделей в сочетании с текстовыми энкодерами существенно повышает точность прогнозирования намерений. Основное внимание уделяется исследованию влияния различных графовых архитектур и энкодеров на производительность предложенного подхода. Экспериментальные результаты подтверждают превосходство графовых подходов по метрикам точности и вычислительных ресурсов над другими методами по метрике Recall@k (MAR). Данная работа раскрывает новое направление в предсказании намерений в диалоговых системах с использованием графов, внося важный вклад в область обработки естественного языка и машинного обучения.

Ключевые слова: предсказание интентов, диалоговые системы, графовые нейронные сети

1. ВВЕДЕНИЕ

Диалоговые системы стали неотъемлемой составляющей повседневной жизни, находя применение в различных сферах. Они представляют собой программное обеспечение, способное коммуницировать с пользователем в процессе диалога, при этом эмулируя поведение, аналогичное реакции человека на информацию, предоставленную пользователем. Одной из фундаментальных задач в моделировании диалоговых систем является определение намерения, выражаемого участником диалога в его реплике, и предсказание намерения, которое будет лежать в основе последующей реплики диалога. В данной исследовательской работе предлагается инновационный подход к решению задачи прогнозирования намерения в диалоговых системах, базирующийся на использовании графовых структур.

Диалог может быть интерпретирован как последовательность намерений, где каждое намерение отражает конкретный запрос или утверждение, высказываемое участниками диалога. Такая парадигма позволяет представить некоторый набор диалогов в виде полного ориентированного многодольного диалогового графа, вершины которого описывают намерения участников диалога. Каждая доля построенного графа представляет поведение участника через вероятностную модель переходов между его намерениями и намерениями других участников диалога. Рассматривая каждый диалог как путь или подграф многодольного графа, можно преобразовать задачу предсказания намерения следующего высказывания в задачу классификации, где намерение следующего высказывания является целевой переменной. Подобный подход позволяет улучшить точность задачи предсказания намерений, что приводит к более результативному взаимодействию между диалоговой системой и пользователем. Помимо этого, представленный метод может быть особенно важным в контексте решения задачи выбора ответа, где использование графовой структуры диалогов приводит к значительному повышению точности [1], что подчеркивает актуальность и перспективность исследования.

Наш вклад заключается в следующем: (i) Разработка инновационных графовых методов для русского языка, которые обеспечивают точное предсказание намерений следующего высказывания в диалоге. (ii) Оценка производительности нескольких современных текстовых кодировщиков и графовых моделей на различных русскоязычных наборах данных с целью решения задачи предсказания намерений. (iii) Анализ полученных результатов, позволяющий оценить эффективность предложенных подходов на русскоязычных диалоговых системах.

Код доступен здесь (анонимизированная ссылка).

2. СОПУТСТВУЮЩИЕ РАБОТЫ

Текстовые энкодеры. Выбор подходящего текстового энкодера играет важную роль в формировании качественных векторных представлений для диалоговых фраз. В последние годы исследования в области обработки естественного языка привели к появлению разнообразных архитектур для кодирования текстовой информации [2]. Одним из наиболее динамично развивающихся направлений стало использование трансформерных моделей, таких как BERT и GPT. Такие языковые модели продемонстрировали впечатляющие результаты в анализе контекста, выявлении семантических связей и генерации текста, что раскрывает новые перспективы для повышения качества диалоговых систем.

Автоматическое построение диалогового графа. Как уже было упомянуто, для решения задачи прогнозирования намерений требуется построение многодольного диалогового графа.

Построение многодольного диалогового графа начинается с формирования вершин, которые в дальнейшем могут быть интерпретированы как намерения участников диалога, исходя из методологии построения графа. Для этого реплики диалогов разбиваются на кластеры с применением двухэтапного алгоритма кластеризации, базирующегося на алгоритме Ллойда (метода K-средних) [3] и семантических и контекстуальных векторных представлениях. Подробное описание алгоритма кластеризации и способов получения векторных представлений представлено в разделе “Методология”.

После построения вершин графа следующим шагом является установление связей между ними. Итоговый результат представляется в виде графа, где кластеры выступают в качестве вершин, а направленные ребра обозначают вероятности переходов между кластерами. Важно подчеркнуть, что каждый кластер представляет собой вершину многодольного диалогового графа и задает свое уникальное намерение.

Прогнозирование намерений. Каждый диалог можно интерпретировать как подграф в многодольном диалоговом графе или последовательность переходов между вершинами многодольного графа, соответствующими различным намерениям, содержащимся в репликах диалога. А именно, каждая реплика диалога несет в себе определенное намерение участника диалога, что позволяет определить, к какой вершине многодольного графа реплика диалога относится. Таким образом, при помощи представления диалога в форме ориентированного подграфа диалогового графа, используя методы классификации графов становится возможным предсказать намерение следующего высказывания в диалоге (см. рис. 1).

Рис. 1.

Прогнозирование намерения следующего высказывания в диалоге с помощью модели, предсказывающей намерение на основании подграфа диалога, а также признаков ребер и вершин.

Для решения задач графовой классификации наиболее распространенным подходом является применение Графовых Нейронных Сетей (GNN) [4]. Обычно графовые методы разделяют на две основные категории: гомогенные и гетерогенные. Гомогенные методы, включая Графовые Сети Внимания (GAT) [5], пользуются высокой популярностью за счет их способности улавливать зависимости между вершинами графа. В рамках гетерогенных методов используются Графовые Трансформерные Сети (GTN) [6], которые выявляют информативные связи между вершинами, создавая на основе исходной графовой структуры новые структуры графа, называемые метапутями.

3. МЕТОДОЛОГИЯ

Автоматическое построение диалогового графа. Для эффективного решения задач, связанных с классификацией графов и предсказанием намерений в диалоговых системах с разным числом участников и разнообразными ролями, необходимо сформировать многодольный полный ориентированный диалоговый граф [7]. Такой граф будет отражать различные роли в диалоговой системе, поведение участников диалога и их взаимодействие.

К примеру, в диалоговых системах с закрытым доменом принято выделять две роли пользователя и менеджера. Соответственно, в диалоговом графе целесообразно сформировать две доли, каждая из которых соответствует одной из ролей. В случае диалоговых систем с открытым доменом, как правило, присутствует только одна роль роль участника диалога. Однако существуют исключения, например, набор диалоговых данных Matreshka, который, несмотря на открытый домен, включает две разные роли: пользователя и бота. Это подчеркивает важность гибкости методологии в обработке разнообразных диалоговых сценариев.

Построение вершин многодольного диалогового графа осуществляется при помощи двухэтапного алгоритма кластеризации (см. рис. 2). На первом этапе происходит группирование реплик с использованием аппроксимации метода k-means из библиотеки FAISS. В результате образуются первичные кластеры, содержащие диалоговые высказывания, обладающие схожими векторными представлениями и семантической структурой. На втором этапе для каждого из первичных кластеров создаются контекстуальные векторные представления с применением метода Cluster2Vec. Суть данного метода заключается в интерпретации диалога как последовательности номеров кластеров, к которым принадлежат соответствующие реплики диалога. На основе сформированных последовательностей происходит обучение Word2Vec, где числа, представляющие номера кластеров, выполняют роль “слов”. Подход Cluster2Vec позволяет получить векторные представления первичных кластеров, которые включают в себя контекстную информацию, описывающую окружение, в котором встречаются реплики каждого кластера в рамках диалогов. Далее, с использованием аппроксимации метода k-means из библиотеки FAISS на основе контекстуальных векторных представлений осуществляется объединение первичных кластеров в итоговые кластеры – будущие вершины многодольного диалогового графа. Таким образом, вершины диалогового графа содержат в себе высказывания с идентичной семантикой, которые встречаются в диалогах в схожих контекстах.

Рис. 2.

Двухэтапный алгоритм кластеризации диалоговых высказываний. На первом этапе используется метод кластеризации K-средних для объединения семантически близких высказываний. На втором этапе для кластеров формируются контекстуальные векторные представления с использованием Cluster2Vec. Этот процесс приводит к созданию вершин многодольного диалогового графа.

Предварительная обработка данных. Этап предварительной обработки данных включает в себя подготовку набора диалоговых данных для обучения моделей прогнозирования намерений в диалогах. Для предсказания следующего намерения используется информация из последних m высказываний диалога с использованием метода скользящего окна длиной m. Если история диалога на момент предсказания короче, чем m, добавляется нулевая вершина, указывающая на отсутствие высказывания в истории. Каждый фрагмент диалога из получившейся выборки представляется в виде ориентированного подграфа многодольного диалогового графа (см. рис. 3). Вершины подграфа соответствуют вершинам многодольного диалогового графа, в которых расположены высказывания фрагмента диалога, на основе которого построен подграф. Далее создаются необходимые признаки для вершин и ребер каждого подграфа.

Рис. 3.

Представление фрагмента диалога в виде подграфа многодольного диалогового графа. Вершины в подграфе соответствуют тем вершинам многодольного графа, которые содержат высказывания фрагмента диалога.

Метрики. В данном исследовании метрики Recall@k и MAR (Mean Average Recall) использовались для точности прогнозирования намерения следующего высказывания предложенными подходами. Для каждого построенного по диалогу из тестовой выборки графа присваивается значение 1, если вершина с намерением следующей реплики входит в топ-k вершин, сформированный на основе предсказанных вероятностей, и значение 0 – в противном случае. Затем для каждого k полученные значения усредняются по всем репликам и диалогам. Для оценки распределения метрики Recall@k и определения, насколько точно предсказываются вершины-кандидаты, использовались различные значения $k$: $\{ 1,3,5,10\} $. Метрика MAR является средним арифметическим по значениям $k \in \{ 1,3,5,10\} $ метрики Recall@k.

Кроме того, чтобы выделить различия в кластерах, сформированных для разных ролей в наборах данных с закрытым доменом, мы представляем отдельные результаты для прогнозирования намерений пользователя и диалоговой системы.

4. ПРЕДЛАГАЕМЫЕ ПОДХОДЫ

В этом разделе представлен обзор использованных подходов для прогнозирования намерения следующего высказывания в диалоге. Главной задачей каждого подхода является предсказание по диалоговому подграфу намерения следующего высказывания диалога, что аналогично предсказанию вершины в многодольном диалоговом графе, так как каждая вершина в многодольном диалоговом графе представляет уникальное намерение. В математической форме постановку задачи можно представить следующим образом: дан диалог U = = $\{ {{u}_{1}},{{u}_{2}},...,{{u}_{t}}\} $, t – количество высказываний в диалоге, uii-e высказывание в диалоге. Для каждой реплики диалога ui известна вершина ${{{v}}_{i}}$ с намерением реплики, соответственно, диалог представляется в форме ориентированного подграфа многодольного диалогового графа G = = $(V,E)$, где V$unique(\{ {{v}_{1}},{{v}_{2}},...,{{v}_{t}}\} )$ – это набор вершин подграфа, а E = $\{ ({{v}_{1}},{{v}_{2}}),({{v}_{2}},{{v}_{3}}),...,({{v}_{{t - 1}}},{{v}_{t}})\} $ – это набор ребер подграфа.

Markov Chain. Базовый подход, в котором на основе набора диалоговых данных вычисляются вероятности перехода из одной вершины в вершины других долей многодольного диалогового графа. Самые вероятные вершины для перехода из текущей вершины графа рассматриваются как потенциальные кандидаты для вершины с намерением следующей реплики в диалоге.

Encoder. Другим базовым подходом является использование предварительно обученных языковых моделей. В данном исследовании для этой цели был выбран энкодер LaBSE, который продемонстрировал лучшие результаты при формировании вершин многодольного диалогового графа. В рамках данного метода с применением текстового энкодера получаются векторные представления как предыдущих высказываний из истории диалога, так и потенциальных последующих реплик. На основе векторных представлений фраз из истории диалога осуществляется предсказание потенциальных последующих высказываний в диалоге и их намерений. Формально подход может быть представлен следующим образом: k кандидатов-вершин многодольного графа с намерением следующей реплики диалога ${{u}_{{t + 1}}}$ определяются как

(1)
$P(s) = LaBSE({{u}_{t}}) \cdot LaBSE{{(s)}^{T}},$
(2)
$candidates = \mathop {\arg \max }\limits_{|unique(c({{s}_{i}}))|\; = \;k,\;s \in S} \;P(s),$
где S – реплики из всех диалогов обучающей выборки, $c({{s}_{i}})$ – функция, по реплике возвращающая номер вершины многодольного графа, в котором содержится реплика. Полученные на первом шаге значения P(s), $s \in S$ сортируются по убыванию, также для каждой реплики из обучающей выборки определяется номер кластера. Выбор кандидатов-вершин происходит с начала отсортированного списка значений P(s) до тех пор, пока количество уникальных кандидатов-вершин не станет равным k.

Encoder-MAP. С целью проведения всестороннего сравнительного анализа был разработан метод, который представляет собой русскоязычную контекстуальную модель, включающий в себя дообучение языковой модели для задачи предсказания последующей реплики на основе истории диалога. В данной концепции LaBSE выступает в качестве базовой модели, которая дополняется слоем Feed Forward Neural Network, содержащим отдельные матрицы весов для векторных представлений истории диалога и потенциальных следующих реплик. Выбор кандидатов-вершин происходит по аналогии с предсказанием кандидатов-вершин в рамках подхода Encoder.

CatBoost. Результаты экспериментов показали, что среди библиотек градиентного бустинга наилучшей эффективностью для прогнозирования намерений обладает CatBoost. В рамках реализации подхода для каждого подграфа формируется вектор, который представляет собой объединение признаков всех вершин, входящих в этот подграф. Затем полученный вектор передается в качестве входных данных алгоритму для решения задачи предсказания намерений.

Message Passing. Графовые Нейронные Сети представляют собой один из наиболее широко распространенных методов в решении задач, связанных с анализом графовых структур. Среди многочисленных моделей графовых нейронных сетей особый интерес представляют Графовые Сети Внимания (GAT). Графовые Сети Внимания оперируют механизмом внимания, который позволяет определить степень важности сообщений, поступающих из соседних вершин, для агрегации информации между вершинами.

FastGTN. В графах, сформированных на основе диалогов, вершины имеют разные типы, зависящие от того, какая вершина многодольного диалогового графа соответствует текущей вершине. Для решения задач, связанных с такими графами, могут быть применены Графовые Трансформерные Сети (GTN). В представленной работе используется FastGTN – усовершенствованная реализация GTN.

5. ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

В данном разделе приведены результаты применения различных подходов на наборах диалоговых данных с открытым доменом (см. табл. 1) и наборах диалоговых данных с закрытым доменом (см. табл. 2), где подходы оцениваются с использованием метрики MAR (Mean $Average$ Recall).

Таблица 1.

Результаты экспериментов по метрике Mean Average Recall на наборах данных открытого домена. Средняя метрика – среднее значение метрики пользователя и метрики диалоговой системы. Для стабильности результатов все методы были обучены на 3 разных наборах кластеров, полученные результаты были усреднены

Подход # Параметров Отн. время обучения Датасет Toloka Persona Chat Rus Russian Dialogues SUBSET Matreshka
# Кластеров Пользователь Пользователь Пользователь Диалоговая система Среднее
Первый этап Второй этап
Markov Chain 10K 0.13 200 30 43.13 ± 0.88 35.62 ± 3.36 45.19 ± 1.01 60.78 ± 1.37 52.19 ± 0.60
400 60 31.59 ± 0.64 22.03 ± 0.37 35.80 ± 0.78 48.41 ± 0.47 41.46 ± 0.45
800 120 22.37 ± 0.52 15.21 ± 0.42 26.97 ± 0.73 35.05 ± 1.07 30.67 ± 0.35
Encoder 471M 0.50 200 30 35.23 ± 1.02 32.89 ± 1.86 31.54 ± 1.60 54.55 ± 1.03 43.05 ± 1.15
400 60 23.09 ± 0.58 21.73 ± 0.75 20.94 ± 0.77 40.74 ± 0.80 30.84 ± 0.57
800 120 15.55 ± 0.45 15.70 ± 0.36 14.36 ± 0.61 27.76 ± 0.73 21.06 ± 0.64
Message Passing 471M + 3.7M 0.47 200 30 49.18 ± 0.76 37.67 ± 1.67 51.45 ± 1.36 72.08 ± 0.96 60.81 ± 0.87
400 60 37.95 ± 1.14 24.59 ± 0.53 41.37 ± 0.84 59.96 ± 0.53 49.79 ± 0.60
800 120 27.58 ± 0.31 18.20 ± 0.80 30.61 ± 0.86 46.94 ± 0.81 37.94 ± 0.68
CatBoost 471M+2.2M 1.00 200 30 48.10 ± 0.54 36.67 ± 1.29 52.26 ± 1.55 72.40 ± 0.53 61.41 ± 0.81
400 60 36.68 ± 0.58 24.20 ± 0.67 42.01 ± 0.83 59.08 ± 1.16 49.70 ± 0.68
800 120 26.40 ± 0.53 17.34 ± 0.37 32.99 ± 1.17 45.26 ± 0.43 38.52 ± 0.69
FastGTN 471M+1.9M 0.49 200 30 48.02 ± 1.09 37.99 ± 2.26 52.36 ± 2.08 71.75 ± 0.83 61.20 ± 0.89
400 60 36.95 ± 0.69 23.11 ± 1.06 40.09 ± 0.97 59.34 ± 1.03 48.79 ± 0.92
800 120 25.77 ± 0.29 17.64 ± 0.69 32.36 ± 0.71 47.08 ± 0.57 39.05 ± 0.51
Encoder-MA 471M+2M 0.78 200 30 38.92 ± 1.12 35.75 ± 2.40 40.60 ± 1.55 64.88 ± 1.69 52.74 ± 1.44
400 60 27.32 ± 1.43 20.94 ± 1.47 24.45 ± 1.47 50.82 ± 1.22 37.64 ± 0.97
800 120 16.54 ± 1.36 12.99 ± 0.56 16.49 ± 0.77 35.47 ± 1.86 25.98 ± 1.08
Таблица 2.

Результаты экспериментов по метрике Mean Average Recall на наборах данных закрытого домена. Средняя метрика – среднее значение метрики пользователя и метрики диалоговой системы. Для стабильности результатов, все методы были обучены на 3 разных наборах кластеров, полученные результаты были усреднены

Подход # Пара-метров Отн. время обу-чения Датасет Russian MultiWOZ Telecom Domain Dataset Russian FoCus Russian Taskmaster
# Кластеров Пользо-ватель Диало-говая система Среднее Пользо-ватель Диало-говая система Среднее Пользо-ватель Диало-говая система Среднее Пользо-ватель Диало-говая система Среднее
Первый этап Второй этап
Markov Chain 10K 0.13 200 30 57.27 ± 0.70 71.45 ± 0.72 64.37 ± 0.48 39.11 ± 2.72 51.55 ± 1.34 45.33 ± 1.71 44.82 ± 1.81 48.75 ± 0.74 46.79 ± 1.09 52.17 ± 0.60 51.70 ± 0.53 52.01 ± 0.53
    400 60 44.24 ± 1.31 59.90 ± 0.53 52.07 ± 0.63 24.43 ± 1.96 36.58 ± 2.13 30.51 ± 1.20 34.31 ± 2.64 38.50 ± 0.67 36.40 ± 1.50 44.62 ± 0.30 43.48 ± 0.20 44.13 ± 0.24
      800 120 29.91 ± 1.24 41.31 ± 0.53 35.61 ± 0.64 16.36 ± 3.98 20.24 ± 0.78 18.30 ± 1.80 28.28 ± 0.27 28.10 ± 0.36 28.19 ± 0.24 36.65 ± 0.64 35.58 ± 0.37 36.18 ± 0.42
Encoder 471M 0.50 200 30 28.08 ± 2.10 55.09 ± 1.45 41.59 ± 1.55 18.03 ± 1.92 37.61 ± 3.09 27.82 ± 2.48 24.27 ± 0.81 46.87 ± 0.58 35.57 ± 0.62 31.27 ± 0.10 35.24 ± 0.96 33.25 ± 0.45
      400 60 16.43 ± 1.06 39.30 ± 1.69 27.87 ± 0.97 8.64 ± 1.14 20.43 ± 0.50 14.54 ± 0.69 17.82 ± 0.44 34.67 ± 0.33 26.24 ± 0.22 20.11 ± 0.25 25.48 ± 0.29 22.80 ± 0.22
      800 120 9.41 ± 0.40 24.02 ± 0.66 16.71 ± 0.51 5.69 ± 1.97 9.91 ± 0.46 7.80 ± 1.10 11.46 ± 0.27 25.34 ± 0.32 18.40 ± 0.25 13.48 ± 0.16 16.37 ± 0.31 14.93 ± 0.23
Message Passing 471M+3.7M 0.47 200 30 63.34 ± 1.49 81.48 ± 0.12 72.41 ± 0.75 39.89 ± 1.03 63.74 ± 1.24 51.82 ± 0.87 56.56 ± 0.36 64.24 ± 0.74 60.40 ± 0.37 63.74 ± 0.50 68.72 ± 0.30 66.28 ± 0.14
  400 60 49.74 ± 0.73 71.27 ± 1.01 60.50 ± 0.56 25.15 ± 3.44 44.03 ± 0.71 34.59 ± 1.47 44.90 ± 0.24 54.95 ± 0.45 49.93 ± 0.31 58.06 ± 0.70 64.34 ± 0.20 61.26 ± 0.40
    800 120 36.68 ± 0.61 52.94 ± 0.51 44.81 ± 0.48 15.41 ± 2.40 25.22 ± 0.88 20.31 ± 0.97 42.58 ± 1.65 44.52 ± 0.36 43.55 ± 0.75 49.59 ± 0.54 54.71 ± 0.57 52.20 ± 0.40
CatBoost 471M+2.2M 1.00 200 30 65.90 ± 1.52 80.21 ± 0.85 73.05 ± 0.62 42.10 ± 1.70 62.67 ± 0.70 52.38 ± 0.60 46.47 ± 0.60 62.52 ± 0.40 54.49 ± 0.44 64.51 ± 0.13 69.66 ± 0.35 67.14 ± 0.19
  400 60 51.55 ± 0.75 68.66 ± 0.57 60.11 ± 0.49 25.57 ± 1.21 44.52 ± 2.28 35.05 ± 1.15 44.22 ± 0.76 51.99 ± 0.28 48.11 ± 0.37 57.13 ± 0.26 63.42 ± 0.48 60.34 ± 0.18
      800 120 36.36 ± 0.57 49.98 ± 0.95 43.17 ± 0.64 17.34 ± 3.35 27.20 ± 1.20 22.27 ± 1.22 38.62 ± 3.90 40.80 ± 0.41 39.71 ± 2.11 49.20 ± 0.37 54.96 ± 0.69 52.15 ± 0.37
FastGTN 471M+1.9M 0.49 200 30 63.85 ± 1.43 80.97 ± 0.90 72.41 ± 0.72 41.09 ± 1.58 61.75 ± 1.25 51.41 ± 1.28 52.65 ± 1.42 63.77 ± 0.57 58.20 ± 0.73 64.48 ± 0.56 69.44 ± 0.42 67.01 ± 0.37
  400 60 51.96 ± 0.76 71.78 ± 1.13 61.87 ± 0.83 26.01 ± 1.95 43.36 ± 1.32 34.69 ± 0.76 42.00 ± 0.76 54.04 ± 0.89 48.02 ± 0.64 57.09 ± 0.55 63.33 ± 0.35 60.27 ± 0.28
      800 120 36.63 ± 0.88 51.88 ± 1.32 44.25 ± 0.91 18.97 ± 3.25 26.95 ± 0.96 22.96 ± 1.20 39.77 ± 2.41 42.85 ± 0.49 41.30 ± 0.97 49.42 ± 0.35 53.43 ± 0.42 51.48 ± 0.36
Encoder-MAP 471M+2M 0.78 200 30 48.14 ± 1.37 68.39 ± 2.39 58.27 ± 1.00 27.17 ± 4.00 42.91 ± 2.13 35.04 ± 2.70 43.78 ± 1.16 53.78 ± 0.88 48.78 ± 0.74 54.10 ± 0.63 54.52 ± 0.51 54.30 ± 0.47
    400 60 36.38 ± 0.98 57.83 ± 1.19 47.11 ± 0.87 11.40 ± 0.78 25.05 ± 1.15 18.23 ± 0.93 30.27 ± 0.88 42.55 ± 0.44 36.41 ± 0.45 45.03 ± 0.57 44.47 ± 0.57 44.75 ± 0.40
      800 120 22.38 ± 0.53 38.05 ± 0.59 30.22 ± 0.50 7.52 ± 1.77 14.21 ± 2.81 10.86 ± 1.31 24.21 ± 3.36 27.99 ± 0.89 26.10 ± 1.69 35.44 ± 0.68 32.70 ± 1.02 34.07 ± 0.81

В разделе обсуждения результатов можно выделить следующие ключевые аспекты исследования.

Сравнительная таблица результатов. В разделе обсуждения результатов представлено сравнение (см. табл. 3) различных подходов на основе подробных результатов оценивания с использованием метрики Recall@k, $k \in \{ 1,3,5,10\} $. Каждому методу присваивается единица, если его результаты по конкретной метрике являются лучшими, в противном случае 0. Затем суммируются значения по всем метрикам для каждого подхода и датасета.

Таблица 3.

Сравнение подходов прогнозирования намерений на основе подробных результатов исследования

Dataset Markov Chain Encoder Message Passing CatBoost FastGTN Encoder-MAP
Russian MultiWOZ 0 0 10 5 12 0
Telecom Domain Dataset 0 0 7 12 11 0
Russian FoCus 0 0 12 2 6 0
Russian Taskmaster 0 0 9 8 7 0
Matreshka 0 0 12 11 10 0
Toloka Persona Chat Rus 0 0 12 6 8 0
Russian Dialogues SUBSET 6 0 10 10 9 3
Summary 6 0 72 54 63 3

Преимущество моделей на основе графов. Из таблицы сравнения видно, что наилучший результат продемонстрировал подход, использующий метод Message Passing (MP). Однако Graph Transformer Network (GTN) также продемонстрировал высокий уровень производительности, превосходя градиентный бустинг и текстовые подходы. Следует отметить, что Message Passing и Graph Transformer Networks также выделяются более высокой скоростью выполнения и низкими требованиями к вычислительным ресурсам в сравнении с другими подходами. Это подчеркивает их эффективность и практическую применимость при использовании диалоговых графов для предсказания намерений.

Превосходство графовых моделей над текстовыми подходами. Графовые модели продемонстрировали превосходство над текстовыми архитектурами в решении задачи прогнозирования намерений в диалогах. В частности, графовые модели показали результат лучше как в сравнении с простым использованием текстового кодировщика, так и в сравнении с дополнительно обученным текстовым кодировщиком Encoder-MAP. Это подтверждает важность учета структурных взаимосвязей между элементами диалога.

Асимметричность ролей в диалогах. В процессе анализа метрик на наборах данных с закрытым доменом было выявлено значительное различие в результатах между метриками пользователя и метриками диалоговой системы. Это различие обусловлено асимметричностью ролей, которые субъекты играют в диалоге, и подчеркивает важность учета асимметричности ролей в будущих исследованиях.

Таким образом, результаты данного исследования подтверждают важность применения графовых моделей для анализа диалоговых данных и их потенциал в улучшении точности и эффективности в задачах прогнозирования намерений в диалогах.

6. ЗАКЛЮЧЕНИЕ

Исследование демонстрирует превосходство графовых моделей над текстовыми архитектурами в контексте задачи прогнозирования намерений в диалогах. Графовые модели и метод градиентного бустинга демонстрируют сопоставимое качество, однако Message Passing и Graph Transformer Networks выделяются более высокой скоростью работы и требуют меньших затрат вычислительных ресурсов. Мы обнаружили различия в метриках, оценивая модели на данных с несколькими ролями в диалогах, что подтверждает гипотезу о важности формирования отдельных кластеров, отображающих намерения, для каждой роли.

Текстовые подходы, такие как Encoder-MAP, демонстрируют низкие результаты в сравнении с графовыми моделями, что подчеркивает важность извлечения структурных зависимостей из данных. Также дополнительное обучение повышает эффективность текстовых подходов, но по сравнению с моделью на основе цепей Маркова качество текстовых архитектур оказывается ниже. 

Приложение

Список литературы

  1. Grigory Minakov, Mumtozbek Akhmadjonov, Denis Kuznetsov. 2023. NEUROINFORMATICS 2023. Dialogue Graphs: Enhancing Response Selection Through Target Node Separation, pages 39–53.

  2. Niklas Muennighoff, Nouamane Tazi, Loic Magne, Nils Reimers. MTEB: Massive text embedding benchmark. // Proceedings of the 17th Conference of the European Chapter of the Association for Computa- tional Linguistics. Dubrovnik, Croatia, May. Association for Computational Linguistics. 2023. P. 2014–2037.

  3. Steinley D. K-means clustering: a half-century synthesis. Br J Math Stat Psychol. 2006. V. 59. Pt 1. P. 1–34. https://doi.org/10.1348/000711005X48266

  4. Jie Zhou, Ganqu Cui, Shengding Hu, Zhengyan Zhang, Cheng Yang, Zhiyuan Liu, Lifeng Wang, Changcheng Li, Maosong Sun. Graph neural networks: A review of methods and applications, AI Open. 2020. V. 1. P. 57–81, ISSN 2666-6510.https://doi.org/10.1016/j.aiopen.2021.01.001

  5. Veličković P., et al. Graph Attention Networks. 6th International Conference on Learning Representations, ICLR 2018 - Conference Track Proceedings. OpenReview.net, 2018.https://doi.org/10.17863/CAM.48429.

  6. Yun Seongjun, Minbyul Jeong, Sungdong Yoo, Seunghun Lee, Sean S. Yi, Raehyun Kim, Jaewoo Kang, Hyunwoo J. Kim. “Graph Transformer Networks: Learning Meta-path Graphs to Improve GNNs.” Neural networks : the official journal of the International Neural Network Society. 2021. V. 153. P. 104–119.

  7. Nagovitsin M., Kuznetsov D. DGAC: Dialogue Graph Auto Construction Based on Data with a Regular Structure. In: Kryzhanovsky B., Dunin-Barkowski W., Redko V., Tiumentsev Y. (eds) Advances in Neural Computation, Machine Learning, and Cognitive Research VI. NEUROINFORMATICS. Studies in Computational Intelligence, vol 1064. Springer, Cham, 2022. https://doi.org/10.1007/978-3-031-19032-2_52

  8. Fangxiaoyu Feng, Yinfei Yang, Daniel Cer, Naveen Arivazhagan, Wei Wang. Language-agnostic BERT sentence embedding. // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2022. P. 878–891, Dublin, Ireland, May. Association for Computational Linguistics.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления