Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 512, № 1, стр. 58-64

О ПОИСКЕ НАЧАЛЬНОГО ПРИБЛИЖЕНИЯ В ЗАДАЧЕ ВОЛНОВОЙ ИНВЕРСИИ С ПОМОЩЬЮ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ

Член-корреспондент РАН И. Б. Петров 1*, А. С. Станкевич 1, А. В. Васюков 1**

1 Московский физико-технический институт (национальный исследовательский университет)
Долгопрудный, Московская обл., Россия

* E-mail: petrov@mipt.ru
** E-mail: a.vasyukov@phystech.edu

Поступила в редакцию 09.12.2022
После доработки 19.05.2023
Принята к публикации 28.05.2023

Полный текст (PDF)

Аннотация

В работе рассматривается вопрос о выборе начального приближения при решении задачи восстановления распределения скоростей в гетерогенной сплошной среде с помощью методов градиентной оптимизации. Для описания поведения среды используется система уравнений акустики, для решения прямой задачи используется конечно-разностная схема. В качестве метода градиентной оптимизации используется L-BFGS-B. Для вычисления градиента функционала ошибки по параметрам среды используется метод сопряженных переменных состояния. Построение начального приближения для градиентного метода выполняется при помощи сверточной нейронной сети, обученной предсказывать распределение скоростей в среде по волновому отклику от нее. В работе показано, что нейронная сеть, обученная на откликах от простых слоистых структур, может быть успешно использована при решении задачи инверсии для существенно более сложной модели Мармузи.

Ключевые слова: акустическая инверсия, численная оптимизация, метод сопряженных переменных состояния, машинное обучение, глубокое обучение, сверточные нейронные сети

1. ВВЕДЕНИЕ

Одной из типовых задач обработки геофизических данных является восстановление структуры гетерогенной сплошной среды по наблюдаемому волновому отклику от нее. Данную задачу можно отнести к широкому классу коэффициентных обратных задач, общая формулировка которых описывается следующим образом.

(1)
$\left\{ \begin{gathered} Au\left( {\vec {r},t} \right) = f\left( {\vec {r},t} \right),\quad \vec {r} \in G,\quad t \in \left[ {0;T} \right] \hfill \\ A = A(t,\vec {r},\left\{ {{{c}_{j}}\left( {\vec {r}} \right)} \right\},\quad j \in \overline {0,N} \hfill \\ Pu\left( {{{t}_{m}},\vec {r}} \right) = {{f}_{m}}\left( {\vec {r}} \right),\quad {{t}_{m}} \in \left[ {0;T} \right],\quad m \in \overline {0,M.} \hfill \\ \end{gathered} \right.~$

Здесь $G \in {{\mathbb{R}}^{n}}$ – область в n-мерном вещественном пространстве, $u$ – набор переменных состояния системы, $A$ – оператор, задающий динамику среды, зависящий от конечного числа неизвестных функций-коэффициентов $\{ {{c}_{j}}(\vec {r})\} $. Известно конечное количество функций – наблюдений за средой $~{{f}_{m}}\left( {\vec {r}} \right)$, которые связаны с вектором переменных $u\left( {{{t}_{m}}} \right)$ в различные моменты времени ${{t}_{m}}$ с помощью оператора проекции $P$. Такая постановка является некорректной с математической точки зрения, задача решается численно путем оптимизации функционала, сравнивающего данные измерений с результатами моделирования динамики среды. Решение такой задачи инверсии обычно требует наличия тех или иных априорных предположений о структуре среды.

Распространенным методом для получения сейсмических изображений высокого разрешения является метод волновой инверсии (далее – FWI), предложенный в работе [1] для системы уравнений акустики. В рамках данного метода распределение параметров в среде восстанавливается итеративным процессом градиентной минимизации гладкого функционала потерь, измеряющего разницу между волновым откликом, полученным в рамках численного моделирования очередного приближения, и реальными данными.

Такая процедура, в силу ее итерационного характера, является весьма вычислительно затратной. Для ускорения сходимости и повышения вычислительной эффективности метода требуется построение достаточного точного начального приближения распределения параметров среды. Один из возможных способов решения такой задачи – выбор начального приближения для процедуры FWI с использованием статистических закономерностей. К примеру, в оригинальной работе [1] для практических приложений предлагается использовать некоторую осредненную модель, получаемую путем сбора статистики по той или иной географической области исследований. В современных работах разными группами авторов разработаны способы уточнения начального приближения, например, путем взвешенного усреднения результатов низкочастотной инверсии [2], или их экстраполяции с помощью моделей машинного обучения [3]. Тем не менее вопрос об инициализации процедуры волновой инверсии в общем случае остается недостаточно изученным.

В данной работе для решения данной задачи предлагается использовать тот факт, что реализация процедуры волновой инверсии в любом случае предполагает наличие средств численного решения прямой начально-краевой задачи, описывающей процедуру исследования целевой среды с помощью упругих волн. В результате решения прямой задачи для произвольного входного распределения параметров в исследуемой среде получается численная сейсмограмма. Таким образом, опираясь на существующие средства решения прямой задачи, могут быть получены пары “распределение свойств в среде – сейсмограмма”. На этих расчетных данных может быть обучена модель глубокого обучения, которая по наблюдаемой сейсмограмме будет получать вероятный вид распределения свойств в среде, для которой данная сейсмограмма была зарегистрирована. Предсказания нейронной сети носят вероятностный характер, в силу чего их неразумно использовать как окончательное решение задачи. В данной работе выход нейронной сети используется в качестве стартовой точки для процесса инверсии с использованием классических градиентных алгоритмов. В работе рассматривается эффективность подобной инициализации в сравнении с линейной интерполяцией, которая часто используется в роли начального приближения. Эффективность в данном случае понимается в смысле того, насколько быстро сходится задача оптимизации для данного начального приближения.

Методы машинного обучения были ранее рассмотрены рядом авторских коллективов для волнового уравнения и его различных приложений [46], в том числе конкретно для сейсмической инверсии [7, 8]. Вклад данной работы заключается в том, что рассмотрено использование нейронной сети, обученной на простых данных, для получения начального приближения для достаточно сложной модели Мармузи.

2. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ И ЧИСЛЕННЫЙ МЕТОД

В данной работе предполагается, что распространение импульса в исследуемой сплошной среде подчиняется системе уравнений акустики (2), что является корректным приближением для сред с сильным затуханием сдвиговых волн [9].

(2)
$\left\{ \begin{gathered} \rho \left( {\vec {r}} \right)\frac{{\partial v\left( {\vec {r},t} \right)}}{{\partial t}} + ~p\left( {\vec {r},t} \right) = 0 \hfill \\ \frac{{\partial p\left( {\vec {r},t} \right)}}{{\partial t}} + \rho \left( {\vec {r}} \right)~{{c}^{2}}\left( {\vec {r}} \right){~}v\left( {\vec {r},t} \right) = - \alpha \left( {\vec {r}} \right)~c\left( {\vec {r}} \right)~p\left( {\vec {r},t} \right). \hfill \\ \end{gathered} \right.$

Здесь $\rho \left( {\vec {r}} \right)$ – плотность среды, $v\left( {\vec {r},t} \right)$ – вектор скорости, $p\left( {\vec {r},t} \right)$ – поле давления, $c\left( {\vec {r}} \right)$ – скорость звука в среде, $\alpha \left( {\vec {r}} \right)$ – коэффициент затухания. В данной работе предполагается, что затухание отсутствует. Для параметризации среды в данной работе используется величина ее акустического импеданса $~m = 1{\text{/}}{{c}^{2}}\left( {\vec {r}} \right)$, обратно пропорциональная квадрату скорости звука в среде. Классическая постановка задачи сейсморазведки подразумевает распространение импульса в полуплоскости, поэтому на верхней границе расчетной области ставится условие свободной границы, а на всех остальных – поглощающее граничное условие.

Для решения прямой задачи могут быть использованы различные численные методы. Так, в работе [10] для аналогичной задачи для модели акустики предложена компактная схема с использованием сеточно-характеристического численного метода. В данной работе используется явная конечно-разностная схема на регулярной сетке, обеспечивающая четвертый порядок аппроксимации по пространству и второй по времени, предложенная в [11]. На верхней границе расчетной области используется условие свободной границы. Отсутствие отражений волн от прочих границ расчетной области обеспечивает поглощающее условие типа C-PML [12].

Описанная численная схема используется в неизменном виде, в рамках данной работы какое-либо исследование методов решения прямой задачи не проводилось.

Программная реализация решения прямой задачи в данной работе использует библиотеки PyTorch [13] и TorchFWI [14, 15] и поддерживает расчет на видеокартах на базе технологии CUDA.

В качестве метода численной оптимизации в данной работе используется L-BFGS-B [16] – квазиньютоновский алгоритм, использующий вместо матрицы Гессе ее двухточечную аппроксимацию, что значительно повышает его привлекательность в применении к крупномасштабной оптимизации. Взятие градиента функционала ошибки по параметрам среды реализуется с помощью метода сопряженных переменных состояния [17], получить который можно методом множителей Лагранжа, рассматривая целевую задачу как задачу условной минимизации с ограничениями в виде системы уравнений в частных производных. Применение описанного метода к системе уравнений акустики дает вид (3) для градиента функционала ошибки J по параметрам системы $m~$ в точке $\vec {r}~$ расчетной области.

(3)
$\frac{{\partial J}}{{\partial m}}\left( {\vec {r}} \right) = - \mathop \sum \limits_s \,\int {{{q}_{s}}\left( {\vec {r},T - t} \right)} \frac{{{{\partial }^{2}}{{u}_{s}}\left( {\vec {r},t} \right)}}{{\partial {{t}^{2}}}}dt.$

Здесь $T$ – итоговое время расчета, а сумма ведется по конечному числу $s$ источников возмущения. Величина ${{q}_{s}}$ определяется из сопряженной системы уравнений, которая, в случае использования среднеквадратичного отклонения в качестве функционала потерь, имеет вид (4).

(4)
$\left\{ \begin{gathered} {{{\tilde {q}}}_{s}}(0) = 0 \hfill \\ \frac{{\partial {{{\tilde {q}}}_{s}}(0)}}{{\partial t}} = 0 \hfill \\ m\frac{{{{\partial }^{2}}{{{\tilde {q}}}_{s}}}}{{\partial {{t}^{2}}}} - \Delta {{{\tilde {q}}}_{s}} = \mathop \sum \limits_{r,s} P_{{s,r}}^{T}\left( {{{P}_{{s,r}}}{{u}_{s}}\left( {T - t} \right) - {{d}_{{s,r}}}\left( {T - t} \right)} \right). \hfill \\ \end{gathered} \right.$

Здесь ${{P}_{{s,r}}}$ – оператор проекции, характеризующий снятие измерений, a ${{d}_{{s,r}}}$ – наблюдаемая сейсмограмма.

Для предсказания распределений параметров в среде по входному сигналу используется полносверточная нейронная сеть архитектуры UNet. Используется классическая архитектура UNet [18], содержащая 30 миллионов параметров. Ранее сеть такой архитектуры уже была успешно использована для более простых геологических задач, в работе [19] с ее помощью решалась задача локализации трещиноватых зон по сейсмическому отклику от них. Следует отметить, что уменьшение размерности сети без значимого снижения качества предсказаний представляется реалистичной задачей, но на данном этапе она не рассматривалась.

3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Для обучения и тестирования нейронной сети используется набор данных из 20 тысяч пар “распределение свойств в среде – сейсмограмма”, полученный методами численного моделирования.

Геометрический размер области каждого образца составляет 9192 м по горизонтали и 3192 м по вертикали. Для каждого образца сначала генерируется некоторое распределение свойств в среде. Генерация происходит процедурным образом, алгоритм генерации обеспечивает получение случайных слоистых структур. Каждое такое распределение (изображение) содержит 384 узла сетки (пиксела) по горизонтали и 134 по вертикали. Значение в каждом узле (пикселе) – значение скорости звука в данной точке пространства. Для полученного распределения скоростей звука в среде численно решается прямая задача и получается расчетная сейсмограмма.

При решении прямой задачи шаг регулярной расчетной сетки по пространству равен 5 м. Количество датчиков на верхней границе расчетной области, выполняющих запись сейсмограммы – 384 штуки. Сканирующий импульс задается в центре верхней границы расчетной области.

Примеры сгенерированных распределений параметров в среде, входящие в состав обучающей выборки, представлены на рис. 1. В верхнем ряду приведены распределения скоростей звука в среде. Для них по осям отложены геометрические размеры в метрах, а цветом показана скорость звука в данной точки области, выраженная в м/с. В нижнем ряду приведены расчетные сейсмограммы, для них по вертикальной оси отложен номер датчика на свободной границе, по горизонтальной оси – номер отсчета по времени, а цветом показана отмасштабированная сумма вертикальной и горизонтальной компоненты напряжения на данном датчике в данный момент времени.

Рис. 1.

Примеры сгенерированных случайных слоистых гетерогенных сред (верхний ряд) и сейсмограмм для них (нижний ряд).

Полученный набор из 20 000 пар разделяется на обучающий, проверочный и тестовый наборы в соотношении: 16 000, 3000, 1000 образцов.

На полученных данных обучается сверточная нейронная сеть. Обучение нейронной сети велось с помощью алгоритма оптимизации Adam с постоянным шагом 0.001. В качестве критерия остановки оптимизатора выступала неизменность функции потерь на тестовой выборке в пределах 5% от ее текущего значения в течение 5 эпох обучения, после чего производился перезапуск алгоритма с уменьшенным в 10 раз шагом обучения. Для обучения использовались GPU NVIDIA Tesla K80 12 Gb. В конце обучения точность предсказания, выраженная как попиксельный MSE, составляет 0.099 для проверочного набора и 0.113 для тестового набора.

На рис. 2 приведены примеры предсказаний обученной сети, которые в дальнейшем использовались как начальные точки для работы алгоритма градиентной оптимизации. Справа показаны реальные конфигурации сред, а слева – предсказания их структуры, сделанные нейронной сетью на основании сейсмограммы. По осям отложены геометрические размеры в метрах, цветом показана скорость звука в данной точке области, выраженная в м/с.

Рис. 2.

Примеры предсказаний нейронной сети (слева) и реальных конфигураций сред (справа).

Чистое время предсказания для одного образца составляло 0.4 с. С учетом загрузки данных с диска в память и выполнения технических процедур полное время получения предсказания составляло 1.2 с для одного образца.

Для тестирования совместной работы нейронной сети и градиентной оптимизации была использована геологическая модель Мармузи [20], которая широко используется при отработке алгоритмов инверсии. На рис. 3 показано истинное распределение параметров среды для данной модели. По осям отложены геометрические размеры в метрах, цветом показана скорость звука в данной точки области, выраженная в м/с.

Рис. 3.

Распределение скоростей в среде для модели Мармузи.

Из полной модели Мармузи был взят центральный участок размеров 9192 м по горизонтали и 3192 м по вертикали, для него была получена сейсмограмма по той же процедуре, которая ранее была использована для синтетических сгенерированных распределений.

Для данной сейсмограммы с помощью обученной ранее нейронной сети было получено начальное приближение структуры среды. Далее на базе этого начального приближения была выполнена  последовательность итераций методом L-BFGS-B. Отдельно следует отметить, что данные Мармузи никаким образом не использовались при обучении нейронной сети. То есть начальное приближение было получено нейронной сетью, которая обучалась исключительно на синтетических данных для случайных слоистых структур.

На рис. 4 приведен натуральный логарифм функционала потерь при проведении 50 итераций градиентной оптимизации алгоритма L-BFGS-B с различными видами начального приближения. Рассматривается начальное приближение, выданное нейронной сетью, и простое линейное распределение скорости по глубине. Следует отметить, что данный функционал потерь специфичен для метода градиентной оптимизации и никак не связан с функционалом потерь для самой нейронной сети, предоставившей начальное приближение.

Рис. 4.

История минимизации функционала при различных типах инициализации при решении задачи FWI для модели Мармузи с помощью алгоритма L-BFGS-B.

Видно, что при использовании предсказаний нейронной сети в качестве начальной точки, количественное значение функционала оказывается ниже, чем при использовании линейного распределения скорости по глубине.

Из представленных на рис. 4 результатов численных  экспериментов видно, что скорость сходимости метода градиентной оптимизации L-BFGS-B при использовании предложенного метода получения начального приближения не изменяется по сравнению с его скоростью сходимости при использовании линейной интерполяции в качестве начального приближения. Однако абсолютное значение функционала потерь при использовании предложенного метода меньше на каждой итерации. Таким образом, для достижения одинакового значения функционала потерь при использовании предложенной инициализации потребуется меньшее количество итераций градиентного метода.

На рис. 5 показана траектория оптимизатора в пространстве параметров для первых 50 итераций. По осям отложены геометрические размеры в метрах, цветом показана скорость звука в данной точке области, выраженная в м/с. Результат нулевой итерации – предсказание нейронной сети. На качественном уровне видно, что сеть определяет принципиальную локализацию крупных структур. Обеспечить тонкое разрешение структуры слоев и разломов нейронная сеть оказывается не в состоянии, что достаточно ожидаемо с учетом ее обучения на исключительно синтетических геометриях. При этом предсказание нейронной сети оказывается удачным начальным приближением, что иллюстрируют последующие шаги алгоритма, который уверенно сходится к реальной структуре среды.

Рис. 5.

Траектория L-BFGS-B при решении задачи FWI для модели Мармузи при инициализации предсказанием нейронной сети.

4. ЗАКЛЮЧЕНИЕ

В работе показано, что сверточная нейронная сеть может быть использована при решении задачи волновой инверсии для быстрого получения начального приближения в пространстве параметров. Получено, что предложенный подход более эффективен, чем линейная интерполяция, которая часто используется в роли начального приближения. Однако следует сразу отметить, что в конкретных случаях лучше может оказаться удачно выбранная иная начальная оценка.

По результатам численных экспериментов получено, что скорость сходимости метода градиентной оптимизации при данном начальном приближении не изменяется по сравнению с его скоростью сходимости при использовании линейной интерполяции в качестве начального приближения. Однако абсолютное значение функционала потерь при использовании предложенного метода меньше на каждой итерации. Таким образом, для достижения одинакового значения функционала потерь при использовании предложенной инициализации потребуется меньшее количество итераций градиентного метода.

Отдельно следует отметить, что в данной работе нейронная сеть обучалась на простых слоистых структурах, а для тестирования была использована модель Мармузи, в которую входят еще и разломы. При добавлении в обучающую выборку образцов с разломами можно ожидать дальнейшего улучшения качества работы нейронной сети.

Список литературы

  1. Tarantola A. Inversion of seismic reflection data in the acoustic approximation // Geophysics. 1984. V. 49. № 8. P. 1259–1266.

  2. Ovcharenko O., Kazei V., Peter D., Alkhalifah T. Variance-based model interpolation for improved full-waveform inversion in the presence of salt bodies // Geophysics. 2018. V. 83. № 5. P. R541–R551.

  3. Sun H., Demanet L. Extrapolated full-waveform inversion with deep learning EFWI-CNN // Geophysics. 2020. V. 85. № 3. P. R275–R288.

  4. Li H., Schwab J., Antholzer S., Haltmeier M. NETT: solving inverse problems with deep neural networks // Inverse Problems. 2020. V. 36. № 6. P. 065005.

  5. Kothari K., de Hoop M., Dokmani’c I. Learning the Geometry of Wave-Based Imaging // Advances in Neural Information Processing Systems. 2020. V. 33. P. 8318–8329.

  6. Gahlmann T., Tassin P. Deep neural networks for the prediction of the optical properties and the free-form inverse design of metamaterials // Phys. Rev. B. 2022. V. 106. № 8. P. 085408.

  7. Adler A., Araya-Polo M., Poggio T. Deep Learning for Seismic Inverse Problems: Toward the Acceleration of Geophysical Analysis Workflows // IEEE Signal Processing Magazine. 2021. V. 38. № 2. P. 89–119.

  8. Yang F., Ma J. Deep-learning inversion: a next generation seismic velocity-model building method // Geophysics. 2019. V. 84. № 4. P. R583–R599.

  9. Mast T.D., Hinkelman L.M., Metlay L.A., Orr M.J., Waag R.C. Simulation of ultrasonic pulse propagation, distortion, and attenuation in the human chest wall // Journal of the Acoustical Society of America. 1999. V. 6. P. 3665–3677.

  10. Golubev V., Shevchenko A., Khokhlov N., Petrov I., Malovichko M. Characteristic Scheme for the Acoustic System with the Piece-Wise Constant Coefficients // International Journal of Applied Mechanics. 2022. V. 14. № 2. P. 2250002.

  11. Levander A.R. Fourth-order finite-difference P-SV seismograms // Geophysics. 1988. V. 53. № 11. P. 1425–1436.

  12. Martin R., Komatitsch D., Ezziani A. An unsplit convolutional perfectly matched layer improved at grazing incidence for seismic wave propagation in poroelastic media // Geophysics. 2008. V. 73. № 4. P. T51–T61.

  13. Paszke A., Gross S., Massa F., Lerer A., Bradbury J., Chanan G., Killeen T., Lin Z., Gimelshein N., Antiga L., Desmaison A., Kopf A., Yang E., DeVito Z., Raison M., Tejani A., Chilamkurthy S., Steiner B., Fang L., Bai J., Chintala S. PyTorch: An Imperative Style, High-Performance Deep Learning Library // Advances in Neural Information Processing Systems 32. 2019. P. 8024–8035.

  14. Li D., Xu K., Harris J.M., Darve E. Coupled Time-lapse Full Waveform Inversion for Subsurface Flow Problems using Intrusive Automatic Differentiation // 2019. arXiv: 1912.07552.

  15. Xu K., Li D., Darve E., Harris J.M. Learning Hidden Dynamics using Intelligent Automatic Differentiation // 2019. arXiv: 1912.07547.

  16. Byrd R.H., Nocedal J., Schnabel R.B. Representations of quasi-Newton matrices and their use in limited memory methods // Mathematical Programming. 1994. V. 63. № 1. P. 129–156.

  17. Plessix R.-E. A review of the adjoint-state method for computing the gradient of a functional with geophysical applications // Geophysical Journal International. 2006. V. 167. № 2. P. 495–503.

  18. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation // CoRR. 2015. V. abs/1505.04597. arXiv: 1505.04597.

  19. Vasyukov A.V., Nikitin I.S., Stankevich A.S., Golubev V.I. Deep convolutional neural networks in Seismic Exploration problems // Interfacial Phenomena and Heat Transfer. 2022. V. 10. № 3. P. 61–74.

  20. Brougois A., Bourget M., Lailly P., Poulet M., Ricarte P., Versteeg R. Marmousi, model and data // EAEG Workshop – Practical Aspects of Seismic Data Inversion. 1990.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления