Вестник Военного инновационного технополиса «ЭРА», 2023, T. 4, № 3, стр. 309-313
Классификация пациентов с шизофренией и здоровых добровольцев по данным диффузионной МРТ
В. А. Орлов 1, *, С. И. Карташов 1, Д. А. Ковалишина 1, А. А. Пойда 1, А. Д. Жемчужников 1
1 Национальный исследовательский центр “Курчатовский институт”
Москва, Россия
* E-mail: Orlov_VA@nrcki.ru
Поступила в редакцию 23.10.2023
После доработки 26.10.2023
Принята к публикации 26.10.2023
Аннотация
Для построения классификатора выбраны подготовленные данные структурной и диффузионной магнитно-резонансной томографии 36 пациентов с шизофренией (диагноз F20 по МКБ-11) и 36 условно здоровых добровольцев. Диффузионные данные прошли несколько этапов обработки: корректировка искажений, вызванных наведенными токами и направлением фазового кодирования, нормализация, повоксельная реконструкция направления роста волокон белого вещества и построение матриц структурной связанности между отделами головного мозга (структурный коннектом). Для разделения данных использованы алгоритмы методов машинного обучения. В результате получена точность 58% для диффузионных данных и 71% для структурных.
ВВЕДЕНИЕ
Шизофрения является достаточно распространенным и тяжелым социально-значимым заболеванием. Во всем мире им страдают по разным оценкам от 1 до 4% населения планеты [1]. Особенности проявления заболевания влекут за собой частичную или полную утрату трудоспособности заболевшего. Распространенность шизофрении создает высокую нагрузку на экономику стран. Ситуация осложняется тем, что многие заболевшие не обращаются за квалифицированной медицинской помощью.
При постановке диагноза и назначении эффективного курса лечения специализированными медицинскими организациями используется стандартный набор клинических методик, описывающих текущее психофизиологическое состояние пациента. Задача повышения эффективности терапии и выявления заболевания на ранних стадиях ведет к необходимости описания фундаментальных признаков патологических процессов, соответствующих шизофрении.
Согласно достаточно популярной теории нейродегенеративных изменений, у таких пациентов наблюдаются отличия в структурной организации белого и серого вещества головного мозга в сравнении со здоровыми добровольцами. Атрофия различных отделов головного мозга может быть характерным проявлением заболевания и служить дополнительным критерием при постановке диагноза.
Одним из самых информативных методов оценки целостности вещества головного мозга является магнитно-резонансная томография (МРТ). Структурная МРТ позволяет проводить морфометрический анализ с целью измерения объемов белого и серого вещества. Диффузионная МРТ позволяет строить карты структурных связей между областями мозга, описывающие возможность и потенциал взаимного обмена информацией между ними.
Разработка классификатора, опирающегося на описанные подходы, позволит косвенно подтвердить состоятельность теории нейродегенерации при шизофрении и определить нейрофизиологические признаки патологических процессов, сопровождающих это заболевание.
Для классификации испытуемых использовали методы машинного обучения, такие как SVM, K-Neighbors, Extra Trees, Decision Tree и другие (всего 43 метода).
ЭКСПЕРИМЕНТАЛЬНО-МЕТОДИЧЕСКАЯ ЧАСТЬ
В исследовании приняли участие 36 пациентов (20 мужчин и 16 женщин, средний возраст 28.9 ± ± 7.3 года) с шизофренией (F20 по МКБ-10 и 6A20 по МКБ-11), поступивших в острые отделения “ГБУЗ ПКБ № 1 ДЗМ”. Контрольную группу составили 36 условно здоровых добровольцев (19 мужчин, 17 женщин, средний возраст 28.9 ± ± 6.2 года) без психических или неврологических заболеваний. Все испытуемые подписали добровольное информированное согласие на участие в исследовании, а также опросный лист на наличие противопоказаний к проведению МРТ и согласие на обработку персональных данных. Протокол исследования был одобрен локальным этическим комитетом НИЦ Курчатовский институт.
Сканирование пациентов проводили на томографе Siemens Magnetom Verio 3T. Для сбора данных диффузионной МРТ использовали протокол с параметрами сканирования с TE = 101 мс, TR = = 13 700 мс, FOV = 240 × 240 мм, количеством срезов 64. Использовали диффузионную схему DTI. Значение b составляло 1500 с/мм2. Разрешение в плоскости составляло 2 мм, толщина среза – 2 мм. Анализ данных диффузии проводили с помощью DSI Studio [2] и MRtrix3 [3]. b-таблица была проверена с помощью автоматической процедуры контроля качества для обеспечения ее точности [4]. Данные о диффузии были восстановлены в пространстве MNI с использованием диффеоморфной реконструкции в q-пространстве для получения функции распределения спина (SDF) [5]. Был использован коэффициент длины диффузионной выборки 1.25. Ограниченную диффузию определяли количественно с помощью визуализации ограниченной диффузии [6].
Предобработку проводили в программе M-Rtrix3. Основные этапы предобработки включали в себя оценку уровня шума dMRI и шумоподавление с использованием анализа главных компонент Марченко–Пастура [7–10], коррекцию искажений, вызванных вихревыми токами, коррекцию движения и коррекцию искажений, вызванных восприимчивостью, с использованием FSL [11–13]. Дополнительно была проведена коррекция неоднородности поля B1 для серии объемов DWI.
Построение трактографических изображений и матриц связанности было проведено в программе DSI Studio. Для улучшения воспроизводимости использовали детерминированный алгоритм отслеживания волокон [14] с расширенными стратегиями отслеживания [15]. Порог анизотропии составлял 0.06, угловой порог – 30°, размер шага – 2 мм. Тракты длиной менее 30 и более 200 мм отбраковывали. Всего было заложено 1 млн. источников. Анализ формы [16] проводили для получения показателей формы для трактографии. Атлас Brainnetome [17] использовали в качестве парцелляции мозга. Матрица связанности представляет собой таблицу, по сторонам которой расположены номера зон мозга из атласа (0–246). Каждая матрица состоит из положительных целых чисел, описывающих количество трактов белого вещества между двумя интересующими областями.
Для обработки и морфометрического анализа структурных Т1 МРТ-данных использовали разработанный лабораторией компьютерной нейровизуализации в Центре биомедицинской визуализации имени Атиноулы А. Мартинос свободно распространяемый пакет Freesurfer v7.4.1 [18].
Технические детали процедур подготовки данных подробно описаны в [19–22]. Эта обработка включает в себя коррекцию движения и усреднение [23] нескольких объемных изображений, взвешенных по T1 (когда доступно более одного), удаление немозговой ткани с использованием гибридной процедуры водораздела/поверхностной деформации [24], автоматизированную трансформацию Талайраха, сегментацию подкорковых структур белого вещества и объемных структур глубокого серого вещества (включая гиппокамп, миндалевидное тело, хвостатое, путамен, желудочки) [25], нормализацию интенсивности [26], тесселяцию границы серого вещества с белым веществом, автоматическую коррекцию топологии [27] и деформацию поверхности в соответствии с градиентами интенсивности для оптимального размещения границ серый/белый и серый/спинномозговая жидкость в месте, где наибольший сдвиг интенсивности определяет переход к другому классу тканей. После построения моделей коры выполняется ряд пространственных преобразований деформируемых процедур для дальнейшей обработки и анализа данных, включая раздувание поверхности, регистрацию в сферическом атласе, который основан на индивидуальных паттернах складчатости коры для соответствия геометрии коры у разных испытуемых [28], разделение коры головного мозга на единицы с учетом структуры извилин и борозд и создание различных данных на основе поверхности, включая карты кривизны и глубины борозд. Этот метод использует информацию как об интенсивности, так и о непрерывности всего трехмерного объема МРТ-скана в процедурах сегментации и деформации для получения представлений толщины коры, рассчитанной как ближайшее расстояние от границы серого/белого до границы серого/ликвора в каждой вершине мозаичной поверхности. Карты создаются с использованием пространственных градиентов интенсивности по классам тканей и поэтому не зависят от абсолютной интенсивности сигнала. Созданные карты не ограничены воксельным разрешением исходных данных, следовательно, они способны обнаруживать субмиллиметровые различия между группами. Было продемонстрировано, что морфометрические процедуры Freesurfer демонстрируют хорошую надежность при тестировании и повторном тестировании у разных производителей сканеров и в разных условиях эксплуатации [29].
Для классификации шизофрении по полученным наборам признаков использовали библиотеку sklearn [30]. Всего для анализа было использовано 43 метода классификации, включая NuSVC, SVC, LinearSVC, ExtraTreesClassifier, RandomForestClassifier, KNeighborsClassifier [31].
Известно, что для ряда методов классификации точность может уменьшаться, если в анализируемом наборе данных распределения значений разных признаков сильно различаются [32]. Так, признак с более высокой дисперсией или с более высоким средним значением будет “подавлять” остальные признаки и в большей степени влиять на итоговую точность. Поэтому был применен дополнительный шаг предобработки, направленный на выравнивание данных в каждом наборе. Всего использовано два метода: стандартизация и нормализация. При стандартизации признаки меняются таким образом, чтобы дисперсия была минимальна, а среднее значение равно нулю. При нормализации значение каждого признака линейно отображается на отрезок [0; 1], где нулю соответствует минимальное значение признака, а единице – максимальное. То есть каждый из двух полученных ранее наборов признаков (DTI – данные диффузионной МРТ, и Morph – данные структурной МРТ) породил три набора в зависимости от метода предобработки: без предварительной обработки, стандартизованный и нормализованный.
Набор Morph содержал пропущенные значения. Было опробовано три варианта заполнения пропущенных значений, используя медианные значения признака, средние и нулевые.
В наборе DTI количество признаков более 30 тысяч, что значительно превышает число испытуемых, на которых проводится обучение, и не позволяет получить высокую точность. Поэтому из наборов данных предварительно были выделены наиболее значимые признаки, которые далее использовали для классификации. Для выделения наиболее значимых признаков использовали различные алгоритмы: χ2, F-Test, алгоритмы, основанные на L2-норме, логистической регрессии, деревьях решений, адаптивном бустинге и др. Подход с выбором наиболее значимых признаков также применялся для набора Morph с целью возможного улучшения результата.
Таким образом, для каждого из исходных наборов признаков (DTI и Morph) использовали комбинации методов предобработки, алгоритмов выбора наиболее значимых признаков, методов классификации.
Чтобы ускорить перебор, процесс разделили на два шага. На первом перебирали методы предобработки (стандартизация, нормализация, без предобработки) и методы классификации. По итогам первого шага фиксировали метод предобработки и 9 из 43 классификаторов, продемонстрировавших на первом шаге наибольшую точность. На втором шаге перебирали методы выбора наиболее значимых признаков для каждого из девяти зафиксированных классификаторов.
Оценку точности проводили с помощью метода кросс-валидации [33]. Данный метод позволяет лучше оценить точность классификации при низком числе исходных данных. Из исходного множества испытуемых на каждом шаге удаляли фиксированное число значений, на которых позднее проводили проверку точности. Для каждой итерации выбирали различное подмножество испытуемых. Использовали 1000 итераций кросс-валидации, рассчитывая результирующую точность осреднением 1000 значений точности в каждой итерации.
Для перебора всех описанных выше комбинаций была разработана программная платформа, позволяющая проводить данную операцию в автоматическом режиме для каждого из исходных наборов.
РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ
Среди методов предобработки наибольшую точность показал метод нормализации. Значения точности, получаемые на наборах после нормализации, на несколько процентов превышали точность, полученную на тех же параметрах, но при использовании других методов предобработки.
Из трех методов заполнения пропущенных значений для набора Morph наибольшую точность показал метод, в котором используются медианные значения признака.
Влияние других параметров на точность наборов Morph и DTI представлено в табл. 1 и 2 соответственно.
Таблица 1.
Точность классификации на наборе Morph
Классификатор/алгоритм выбора признаков | Без выбора признаков (все 315 признаков) | Extra Trees Classifier (132 признака) | Ada Boost (38 признаков) | L2 (106 признаков) |
---|---|---|---|---|
NuSVC | 0.662 | 0.706 | 0.699 | 0.662 |
SVC | 0.654 | 0.694 | 0.696 | 0.654 |
Extra Trees Classifier | 0.643 | 0.668 | 0.667 | 0.643 |
Random Forest Classifier | 0.643 | 0.671 | 0.661 | 0.643 |
K Neighbors Classifier | 0.626 | 0.67 | 0.669 | 0.626 |
Linear SVC | 0.587 | 0.674 | 0.673 | 0.587 |
Примечание. По вертикали представлены методы классификации, по горизонтали – алгоритмы выбора наиболее значимых признаков, которые дали наиболее высокую точность, включая вариант без использования алгоритма выбора наиболее значимых признаков. В скобках под каждым алгоритмом выбора наиболее значимых признаков приведено количество признаков, выбранных данными алгоритмами в качестве оптимального числа.
Таблица 2.
Точность классификации на наборе DTI
Классификатор/ алгоритм выбора признаков | Без выбора признаков (все 30 135 признаков) | Extra Trees Classifier (1184 признака) | AdaBoost (41 признак) | L2 (3938 признаков) |
---|---|---|---|---|
NuSVC | 0.448 | 0.585 | 0.439 | 0.421 |
SVC | 0.395 | 0.581 | 0.435 | 0.396 |
Label Propagation | 0.496 | 0.496 | 0.493 | 0.496 |
Label Spreading | 0.496 | 0.496 | 0.493 | 0.496 |
Linear SVC | 0.472 | 0.481 | 0.451 | 0.444 |
Extra Tree Classifier | 0.501 | 0.476 | 0.469 | 0.478 |
Примечание. По вертикали представлены методы классификации, по горизонтали – алгоритмы выбора наиболее значимых признаков, которые дали наиболее высокую точность, включая вариант без использования алгоритма выбора наиболее значимых признаков. В скобках под каждым алгоритмом выбора наиболее значимых признаков приведено количество признаков, выбранных данными алгоритмами в качестве оптимального числа.
Для набора Morph видно, что добавление алгоритма выбора признаков позволяет увеличить точность. Классификатор Extra Trees Classifier позволяет добиться наибольшей точности. Используя Ada Boost, возможно получить прогноз с точностью лишь немного ниже наилучшего уже по 38 признакам из 315 исходных.
Для набора DTI точность почти во всех случаях составила ~50%, что соответствует точности случайного выбора. Единственное исключение – при выборе признаков с помощью алгоритма Extra Trees Classifier, где точность составила 58%. На основе таких результатов можно сделать вывод, что огромное количество признаков не позволяет правильно выделить наиболее важные и построить точный прогноз. Однако дальнейшая работа с алгоритмами выбора признаков может улучшить результат.
ЗАКЛЮЧЕНИЕ
Низкая точность классификации по данным диффузионной МРТ может быть обусловлена выбранной метрикой для оценки различий между пациентами и здоровыми добровольцами. Связанность как характерный признак заболевания может не вполне проявляться при нейродегенеративных изменениях, так как речь не идет о серьезных нарушениях целостности мозга. Вероятнее всего необходимы другие производные параметры из данных диффузионной МРТ, такие как фракционная анизотропия, коэффициент радиальной и аксиальной диффузии, отражающие микроструктурные изменения вещества мозга.
Работа выполнена в рамках государственного задания НИЦ “Курчатовский институт” с использованием вычислительных ресурсов федерального центра коллективного пользования “Комплекс моделирования и обработки данных исследовательских установок мега-класса” НИЦ “Курчатовский институт”.
Список литературы
Jablensky A. et al. // Psychol. Med. Monogr. Suppl.1992. V. 20. P. 1.
DSI-Studio: A tractography software tool for diffusion MRI analysis. (n.d.). DSI Studio Documentation. Retrieved October 19, 2023. https://dsi-studio.labsolver.org
MRtrix3. (n.d.). Retrieved October 19, 2023. https://www.mrtrix.org
Schilling K.G. et al. // NMR Biomed. 2019. V. 32. № 6.
Yeh F.-C., Tseng W.-Y.I. // NeuroImage. 2011. V. 58. № 1. P. 91.
Yeh F. et al. // Magn. Reson. Med. 2016. V. 77. № 2. P. 603.
Veraart J. et al. // NeuroImage. 2016. V. 142. P. 394.
Veraart J., Fieremans E., Novikov D.S. // Magn. Reson. Med. 2015. V. 76. № 5. P. 1582.
Cordero-Grande L. et al. // NeuroImage. 2019. V. 200. P. 391.
Tournier J.-D. et al. // NeuroImage. 2019. V. 202. P. 116137.
Andersson J.L.R., Skare S., Ashburner J. // NeuroImage. 2003. V. 20. № 2. P. 870.
Andersson J.L.R., Sotiropoulos S.N. // NeuroImage. 2016. V. 125. P. 1063.
Smith S.M. et al. // NeuroImage. 2004. V. 23. P. S208.
Yeh F.-C. et al. // PLoS One. 2013. V. 8. № 11. P. e80713.
Yeh F.-C. // NeuroImage. 2020. V. 223. P. 117329.
Yeh F.-C. // NeuroImage. 2020. V. 223. P. 117329.
Brainnetome atlas. (n.d.). Home. Retrieved October 19, 2023. https://atlas.brainnetome.org
FreeSurfer. https://surfer.nmr.mgh.harvard.edu/
Dale A.M., Fischl B., Sereno M.I. // NeuroImage. 1999. V. 9. № 2. P. 179.
Fischl B., Liu A., Dale A.M. // IEEE Trans. Med. Imag. 2001. V. 20. № 1. P. 70.
Fischl B. // Cereb. Cortex. 2004. V. 14. № 1. P. 11.
Han X. et al. // NeuroImage. 2006. V. 32. № 1. P. 180.
Reuter M., Rosas H.D., Fischl B. // NeuroImage. 2010. V. 53. № 4. P. 1181.
Ségonne F. et al. // NeuroImage. 2004. V. 22. № 3. P. 1060.
Fischl B. et al. // Neuron. 2002. V. 33. № 3. P. 341.
Sled J.G., Zijdenbos A.P., Evans A.C. // IEEE Trans. Med. Imag. 1998. V. 17. № 1. P. 87.
Segonne F., Pacheco J., Fischl B. // IEEE Trans. Med. Imag. 2007. V. 26. № 4. P. 518.
Fischl B. et al. // Hum. Brain Mapp. 1999. V. 8. № 4. P. 272.
Han X. et al. // NeuroImage. 2006. V. 32. № 1. P. 180.
Scikit-learn: machine learning in Python – scikit-learn 0.16.1 documentation. https://scikit-learn.org
Supervised learning // scikit-learn. https://scikit-learn.org/stable/supervised_learning.html#supervised-learning
Hastie T., Tibshirani R., Friedman J. The elements of statistical learning. New York: Springer, 2009. https://doi.org/10.1007/978-0-387-84858-7
Arlot S., Celisse A. // Stat. Surv. 2010. V. 4
Дополнительные материалы отсутствуют.
Инструменты
Вестник Военного инновационного технополиса «ЭРА»