Сравнение инструментов биоинформатики для HLA-типирования на основе данных WGS

Резюме

Введение. Широкое распространение секвенаторов в научно-исследовательских и медицинских учреждениях, удешевление процесса секвенирования и внедрение его в клиническую практику делают целесообразным оценку дополнительных параметров на основе данных секвенирования генома и экзома пациентов. Так, данные полноэкзомного и полногеномного секвенирования позволяют получить не только информацию об однонуклеотидных полиморфизмах, малых делециях и инсерциях, о некоторых типах структурных вариантов, но и об HLA-генотипе. На основе данных высокоэффективного секвенирования (new generation sequencing, NGS) можно проводить массовое типирование аллелей HLA с использованием передовых инструментов биоинформатики. При использовании наиболее подходящих инструментов результаты HLA-типирования на основе данных NGS могут способствовать более точному описанию частот встречаемости аллелей HLA в популяциях, пополнению базы данных Allele Frequency Net Database, изучению особенностей распространения аллелей HLA внутри различных этносов, поиску ассоциаций с аутоиммунными заболеваниями.

Цель исследования - подбор оптимального инструмента для HLA-типирования с помощью полногеномного секвенирования (whole genome sequencing, WGS) для его включения в биоинформатический сценарий обработки данных.

Материал и методы. Для 150 образцов замороженной крови проведено полногеномное секвенирование с последующей биоинформатической обработкой. HLA-типирование по данным WGS осуществлялось с помощью инструментов: xHLA, POLYSOLVER, HLA-LA, HLAscan, OptiType, Kourami. Библиотеки для таргетного секвенирования региона HLA для этих же 150 образцов готовились с использованием пула праймеров NGSgo-MX6-1 (GenDX, Нидерланды) и набора NGSgo-LibrX (GenDX, Нидерланды). Типирование аллелей HLA на основе данных таргетного секвенирования проводилось с помощью программы NGSengine.

Результаты. В рамках исследования изучена точность типирования с применением биоинформатических инструментов xHLA, OptiType, HLAscan, POLYSOLVER, HLA-LA, Kourami при анализе данных полногеномного секвенирования образцов крови человека с покрытием ≥ 30x. В качестве эталонных данных приняты результаты типирования, полученные с помощью набора NGSgo-MX6-1 (GenDX, Нидерланды). Наибольшую точность типирования HLA класса I показал инструмент POLYSOLVER, для HLA класса II - xHLA с версией базы IMGT/HLA 3.22.0. Инструменты POLYSOLVER и OptiType требуют значительного времени и вычислительных ресурсов, в связи c этим для массового HLA-типирования больше подходят биоинформатические инструменты Kourami и HLAscan.

Все рассмотренные биоинформатические инструменты допускают больше ошибок при типировании локусов HLA класса II, чем при типировании локусов HLA класса I, несмотря на то что разнообразие аллелей HLA класса II существенно меньше, чем класса I. Наибольшее количество некорректно определенных аллелей наблюдалось для локуса DQB1.

Заключение. Результаты и выводы, полученные в рамках исследования, представляют собой основу методического подхода к выбору оптимального инструмента HLA-типирования для использования в биоинформатических сценариях обработки данных полногеномного и/или полноэкзомного секвенирования.

Ключевые слова:биоинформатические инструменты; полногеномное секвенирование; генотипирование; точность HLA-типирования

Для цитирования: Казакова П.Г., Митрофанов С.И., Ахмерова Ю.Н., Варламова О.В., Земский П.Ю., Мкртчян А.А., Сергеев А.П., Снигирь Е.А., Фелиз Н.В., Фролова Л.В., Шпакова Т.А., Юдин В.С., Кескинов А.А., Юдин С.М., Скворцова В.И. Сравнение инструментов биоинформатики для HLA-типирования на основе данных WGS. Иммунология. 2023; 44 (2): 219-230. DOI: https://doi.org/10.33029/0206-4952-2023-44-2-219-230

Финансирование. Исследование не имело спонсорской поддержки.

Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.

Вклад авторов. Концепция и дизайн исследования - Казакова П.Г., Юдин В.С., Кескинов А.А., Юдин С.М., Скворцова В.И.; выделение ДНК, подготовка библиотек, полногеномное и таргетное секвенирование - Снигирь Е.А., Варламова О.В.; мониторинг и ликвидация ошибок в процессе секвенирования - Сергеев А.П.; биоинформатическая обработка данных - Казакова П.Г., Митрофанов С.И.; анализ и визуализация данных - Казакова П.Г.; написание текста - Казакова П.Г., Митрофанов С.И.; редактирование текста - Ахмерова Ю.Н., Земский П.Ю., Мкртчян А.А., Фелиз Н.В., Фролова Л.В., Шпакова Т.А.

Введение

Комплекс генов HLA (human leukocyte antigens) компактно расположен на коротком плече 6-й хромосомы (6p21.3), включает примерно 3,5 м.п.н. [1] и насчитывает более 200 генов, разделенных на 3 класса [2]. Деление этих генов на классы обусловлено различиями в структуре кодируемых ими белков и особенностями ассоциированных иммунных процессов.

Классические гены HLA классов I и II являются наиболее полиморфными среди известных генов человека. В настоящее время в исследованиях используются методы HLA-типирования с высоким разрешением, следствием чего является открытие новых аллелей и увеличение общего количества известных аллелей. Так, по состоянию на январь 2023 г. общее количество известных аллелей в локусах HLA I и II классов составило 35 820 (IPD-IMGT/HLA 3.51.0) [3].

В настоящее время HLA-типирование применяется для решения задач, связанных с трансплантацией костного мозга и других органов, для диагностики наследственных заболеваний, ассоциированных с генами главного комплекса гистосовместимости (МНС) (болезнь Бехтерева, сахарный диабет 1-го типа, синдром Рейтера, целиакия, рассеянный склероз, ревматоидный артрит и др.), некоторых форм бесплодия, связанных с особенностями HLA-профиля супругов, а также для дифференциальной диагностики и прогноза развития аутоиммунных заболеваний [4-6].

Первоначально HLA-типирование проводилось серологическими методами, которые имеют низкое разрешение, вследствие чего позднее они практически полностью были заменены молекулярно-генетическими методами. В последние годы наблюдается рост доступности данных высокоэффективного секвенирования (new generation sequencing, NGS), что привело к улучшению вычислительных методов для предсказания гаплотипов HLA. Методы HLA-типирования in silico, применяемые к данным NGS, обеспечивают высокую скорость и производительность анализа, но из-за высокого уровня вариабельности региона HLA типирование на основе результатов NGS остается весьма проблематичным. Более того, определение точного гаплотипа HLA осложняется высокой степенью сходства последовательностей аллелей HLA, которые могут отличаться всего одним или двумя нуклеотидами [7].

Еще одна сложность типирования in silico заключается в регулярных обновлениях версии базы данных IPD-IMGT/HLA, при этом сами биоинформатические инструменты не обновляются столь же часто, а у некоторых из них и вовсе отсутствует возможность автоматического обновления базы. Биоинформатические инструменты для HLA-типирования используют базу IPD-IMGT/HLA в качестве словаря возможных значений аллелей, поэтому результат типирования не будет выходить за пределы списка HLA-аллелей используемой версии базы IPD-IMGT/HLA, что накладывает ограничения на применение биоинформатических инструментов для обнаружения неизвестных ранее аллелей.

Существует большое количество биоинформатических инструментов, предназначенных для HLA-типирования, которые отличаются скоростью работы, точностью типирования, форматом входных и выходных данных, минимальными требованиями к вычислительным мощностям и пр.

По причине отсутствия доступных эталонных данных, оптимального вычислительного алгоритма и рекомендованного для использования "золотого стандарта" HLA-типирования in silico на данных полногеномного/полноэкзомного секвенирования (WGS/WES, whole genome sequencing/whole exome sequencing) при выборе наиболее подходящего биоинформатического инструмента для массового типирования приходится дополнительно проверять точность работы инструментов, воспроизводимость их результатов, подбирать оптимальные опции запуска, режимы первичной обработки данных и пр.

Типирование HLA с применением технологий NGS соответствует современным требованиям для выполнения массовых исследований по HLA-типированию потенциальных доноров стволовых кроветворных клеток и позволяет осуществлять HLA-типирование с высоким уровнем разрешения. В настоящее время на отечественном рынке представлены реагенты для HLA-типирования на платформах Illumina и Ion Torrent четырех производителей - One Lambda (США), GenDx (Нидерланды), Illumina (США), Omixon (Венгрия). В рамках проведенного исследования в качестве эталонных были приняты результаты типирования, полученные с помощью набора NGSgo-MX6-1 (GenDX, Нидерланды) и платного программного обеспечения NGSengine (GenDX, Нидерланды) v2.22.0.

Весомым преимуществом наборов NGSgo (GenDx) по сравнению с другими реактивами является возможность проведения таргетной полимеразной цепной реакции (ПЦР) в мультиплексном формате, что экономит время, снижает материальные затраты на этот этап и минимизирует ошибки оператора, поскольку исключает этап пулирования продуктов ПЦР. О возможности использования данного набора для исследовательских целей также свидетельствует тот факт, что разработанная отечественная тест-система, зарегистрированная в качестве изделия медицинского назначения (регистрационное удостоверение Минздрава РФ № РЗН 2019/8988 от 04.10.2019) в качестве подтверждения идентификации новых HLA-аллелей использует наборы NGSgo (GenDX, Нидерланды), в частности набор NGSgo-MX6-1 (GenDX, Нидерланды).

Материал и методы

Исследованные образцы. Выборка из 150 образцов замороженной крови пациентов сформирована из имеющейся коллекции ФГБУ "ЦСП" ФМБА России. Забор биоматериала, хранящегося в коллекции ФГБУ "ЦСП" ФМБА России, осуществлялся в соответствии с ГОСТ Р53079.4-2008. Все 150 образцов прошли проверки качества, включая проверку на отсутствие признаков гемолиза и хилеза, проверку на уникальность идентификационного кода пациента, зашифрованной в нем информации и самого пациента и пр.

Секвенирование. Выделение ДНК из замороженных образцов цельной крови проводилось с помощью набора MagAttract HMW DNA Kit (Qiagen, Германия). Протокол выделения ДНК автоматизирован на Tecan Freedom EVO (Tecan, Швейцария). Измерение концентрации и чистоты выделенной ДНК осуществлялось с помощью микропланшетного ридера Tecan Infinite® F Nano Plus (Tecan, Швейцария).

Библиотеки для секвенирования готовились с использованием набора Nextera DNA Flex (Illumina, США) в соответствии с рекомендациями производителя. Кроме того, каждый образец в проточной кювете был помечен с помощью индексов IDT-ILMN Nextera DNA UD (Illumina, США) для исключения возможности перекрестной контаминации.

Измерение концентрации геномных библиотек проводили на спектрофотометре Tecan Infinite® F Nano Plus (Tecan, Швейцария). Размер геномных библиотек NGS измерялся с помощью системы Agilent TapeStation 4200 (Agilent, США) с использованием набора Agilent DNA 1000 (Agilent, США). Библиотечные пулы готовили из 24 образцов, объединение которых осуществлялось с использованием автоматизированной станции Tecan Freedom EVO (Tecan, Швейцария).

Полногеномное секвенирование проводилось с использованием секвенаторов Illumina NovaSeq 6000 (Illumina, США) с применением комплекта реагентов NovaSeq 6000 S4 (300 циклов) (Illumina, США) для парноконцевых прочтений 2 × 150 п.н.

Анализ данных секвенирования и HLA-типирование. На первом этапе обработки сырых данных секвенирования осуществлялась демультипликация, при которой выдача секвенатора NovaSeq 6000 в формате BCL конвертировалась в формат FASTQ с помощью программного обеспечения bcl2fastq v2.20 [8]. Для контроля качества секвенирования всей ячейки использовалась программа Illumina Sequencing Analysis Viewer v2.4.7 [9]. Для контроля качества прочтений использовался биоинформатический инструмент FastQC v0.11.9 [10]. По результатам первого этапа в выборку попали образцы, прошедшие контроль качества по показателю равномерности распределения нуклеотидов в ридах, по G/C-составу и др.

На втором этапе биоинформатической обработки проводилось выравнивание прочтений на референсный геном с помощью программно-аппаратной платформы DRAGEN v07.021.510.3.5.7 [11]. В качестве референсной последовательности генома человека использовалась последовательность GRCh38.d1.vd1 [12]. По результатам второго этапа в выборку вошли образцы, для которых среднее покрытие по геному составило не менее 30x.

На следующем этапе типирование образцов проводилось по 6 основным локусам HLA классов I и II: -A, -B, -C, -DRB1, -DPB1, -DQB1 с разрешением два поля с использованием биоинформатических инструментов xHLA [13], POLYSOLVER [14], OptiType [15], HLAscan [16], Kourami [17], HLA-LA [18].

Библиотеки для таргетного секвенирования региона HLA готовились с использованием пула праймеров NGSgo-MX6-1 (GenDX, Нидерланды) и набора NGSgo-LibrX (GenDX, Нидерланды). Каждый образец в проточной кювете был помечен с помощью индексов NGSgo-IndX.

Измерение концентрации ПЦР-ампликонов проводилось с помощью флуориметра Qubit (Thermo Fisher, США). Измерение длины ПЦР-ампликонов осуществлялось с помощью системы автоматизированного электрофореза Agilent TapeStation 4200 (Agilent, США) с использованием набора Agilent DNA 1000 (Agilent, США). Пул готовых библиотек содержал 150 образцов.

Таргетное секвенирование локусов HLA проводилось с использованием секвенатора MiSeq (Illumina, США) с применением комплекта реагентов MiSeq Reagent Kit v2 (300-cycles) (Illumina, США) для парноконцевых прочтений 2 × 150 п.н.

На первом этапе обработки сырые данные таргетного секвенирования конвертировались из формата BCL в формат FASTQ с помощью программного обеспечения MiSeq Reporter Software (Illumina, США) [19]. Для контроля качества секвенирования всей ячейки целиком использовалась программа Illumina Sequencing Analysis Viewer v2.4.7 [9]. Типирование аллелей HLA проводилось с помощью программы NGSengine v2.22.0.22581 (GenDX, Нидерланды) [20] с использованием базы данных IPD-IMGT/HLA v3.44.1 [3].

Анализ полученных результатов проводился с помощью python библиотеки pandas [21]. Построение диаграмм и графиков осуществлялось с помощью python библиотек matplotlib 3.5.2 [22] и seaborn 0.11.2 [23].

Результаты

В табл. 1 представлена сводная информация об инструментах для HLA-типирования на основе данных WGS, использованных в исследовании, с указанием даты последнего обновления инструмента, версии базы IPD-IMGT/HLA, входящей в состав и используемой инструментом, типа лицензии, ссылки на официальный сайт, типируемых локусов и др.

Запуск биоинформатических инструментов для HLA-типирования осуществлялся на сервере со следующими основными характеристиками:

· процессор - Intel(R) Xeon(R) Gold 6258R CPU @ 2.70GHz;

· OS (operating system) - Linux version 5.4.0-107-generic (Ubuntu 7.5.0-3ubuntu1~18.04);

· RAM (random access memory) - 772 633 МБ;

· CPU (central processing unit) - 112 виртуальных ядер.

Средний размер BAM-файла, который использовался в качестве входных данных, составлял 57 988 MB.В табл. 2 представлены данные о среднем значении времени работы биоинформатических инструментов в минутах. На рис. 1 представлены сопоставимые данные о среднем времени работы биоинформатических инструментов на одном образце с покрытием ≥ 30x, выраженном в минутах.

Приведенное на рис. 1 среднее время работы биоинформатических инструментов фактически является оценкой скорости их работы. Сравнение скоростей демонстрирует большой разброс времени, которое требуется для обработки одного BAM-файла. Kourami и xHLA работают более чем в 100 раз быстрее POLYSOLVER и более чем в 45 раз быстрее OptiType. При выборе инструмента для HLA-типирования не следует ориентироваться только на скорость работы, необходимо оценить, какие локусы необходимо типировать для достижения исследовательских целей, с каким разрешением и в каком режиме: герминальном и/или соматическом.

Для оценки точности типирования, которую обеспечивают биоинформатические инструменты, в качестве эталонных приняты результаты типирования, полученные с помощью набора NGSgo-MX6-1 (GenDX, Нидерланды) и программы NGSengine v2.22.0.22581 (GenDX, Нидерланды). В ходе типирования 150 образцов с помощью набора NGSgo-MX6-1 не обнаружено новых аллелей, что подтверждало их наличие в базе IPD-IMGT/HLA, которую используют биоинформатические инструменты. Применительно к каждому инструменту рассчитано количество истинно положительных (TP), ложноположительных (FP) определений аллелей, а также точность типирования (Pr) для HLA класса I (-A, -B и -C) и класса II (-DPB1, -DQB1 и -DRB1) на основе данных, полученных авторами (доступны по ссылке https://cloud.cspmz.ru/s/mzxmpQm3xpeGwXA). Точность типирования (Pr) вычислялась по формуле:

где TP - True Positive, FP - False Positive.

Количество корректных определений аллелей (TP), произведенных шестью биоинформатичеcкими инструментами (два из них работали на двух версиях базы IPD-IMGT/HLA), представлено на рис. 2. Биоинформатические инструменты OptiType и POLYSOLVER типируют только локусы HLA класса I, поэтому на диаграммах для локусов HLA-DPB1, -DQB1, -DRB1 они не представлены. На рис. 2 и 3, а также в табл. 3 и 4 для инструментов Kourami и xHLA указана версия базы IPD-IMGT/HLA, которая использована при расчете.

Точность типирования для каждого биоинформатического инструмента представлена в табл. 3 и на рис. 3.

С обновлением используемой инструментом xHLA версии базы IPD-IMGT/HLA с 3.22.0 (10.2015) на 3.45.1 (08.2021) точность типирования аллелей HLA класса I снизилась с 0,946 до 0,521. Это может свидетельствовать или о некорректности скрипта для обновления используемой базы IPD-IMGT/HLA, или о некорректной работе данного биоинформатического инструмента с любой версией базы, кроме идущей с ним по умолчанию. С конца 2017 г. по ноябрь 2022 г. разработка и поддержка xHLA его автором не осуществляется, поэтому при необходимости использования xHLA целесообразно применять этот инструмент только с идущей с ним в комплекте версией базы IPD-IMGT/HLA.

При необходимости типирования классических и неклассических генов HLA целесообразно использовать программы Kourami и HLAscan. При этом в случае Kourami существует возможность обновлять версию IPD-IMGT/HLA без существенных потерь качества типирования.

Программы POLYSOLVER и OptiType имеют высокую точность типирования, но время их работы превышает 90 мин на один образец. Среди рассмотренных только эти два инструмента поддерживают работу в соматическом режиме, поэтому целесообразно использовать их при необходимости типирования парных образцов.

Несмотря на меньшее разнообразие аллелей HLA класса II по сравнению с классом I рассмотренные биоинформатические инструменты допускают больше ошибок при типировании локусов HLA класса II. Наибольшее количество ложных определений наблюдается для локуса HLA-DQB1.

В табл. 4 приведены аллели HLA классов I и II, в которых соответствующий биоинформатический инструмент чаще всего ошибался (в скобках указано количество ложных срабатываний).

Обсуждение

За последние годы произошло значительное снижение стоимости секвенирования как экзомов, так и геномов. В этой связи технология NGS получила массовое распространение в биомедицинских лабораториях многих стран. В ближайшем будущем, вероятно, она станет обычной для медицинской практики. Стремительное развитие геномики и методов секвенирования сопровождается созданием разнообразных инструментов вычислительной биологии и биоинформатики. По мере того как биоинформатика и исследования с использованием больших данных становятся все более востребованными, на пути их развития и совершенствования возникают все новые проблемы, связанные с воспроизводимостью результатов, возможностью трансформации алгоритмов, расширением функционала и спектра поддерживаемых данных, совместимостью разных версий пакетов и библиотек и т.д. Растущее разнообразие вычислительных алгоритмов вынуждает исследователей проводить все больше дополнительных тестов и валидационных проверок биоинформатических инструментов для выбора оптимального пути решения исследовательских задач. В рамках данного исследования при использовании набора NGSgo-MX6-1 (GenDX, Нидерланды) была продемонстрирована возможность и целесообразность использования инструментов HLAscan и Kourami для массового типирования классических и неклассических генов HLA и двух биоинформатических инструментов POLYSOLVER и OptiType - для HLA-типирования парных образцов.

К ограничениям проведенного исследования следует отнести отсутствие на данный момент в России регистрационного удостоверения на набор NGSgo-MX6-1 (GenDX, Нидерланды), хотя в Канаде эти реактивы имеют маркировку in vitro diagnostic. Стоит обратить внимание, что последующая проверка результатов нашего исследования с использованием унифицированных эталонных данных позволит подтвердить достоверность и ценность методического подхода к выбору оптимального инструмента для HLA-типирования для использования в биоинформатических сценариях обработки данных полногеномного и/или полноэкзомного секвенирования. В рамках проведенного исследования не проводилось изучение степени влияния глубины прочтений и длины вставки на точность типирования, обеспечиваемую изученными биоинформатическими инструментами. Кроме того, применение биоинформатических методов HLA-типирования не позволяет обнаруживать новые аллели HLA из-за использования словаря базы IPD-IMGT/HLA. Для идентификации новых аллелей HLA необходимо использовать изолированное секвенирование определенного аллеля.

Заключение

Результаты и выводы, полученные в рамках исследования, представляют собой основу методического подхода к выбору оптимального инструмента для HLA-типирования и использования в биоинформатических сценариях обработки данных полногеномного и/или полноэкзомного секвенирования.

Литература

1. Пальцев М.А., Хаитов Р.М., Алексеев Л.П., Болдырева М.Н. Главный комплекс тканевой совместимости человека (HLA) и клиническая трансплантология. Молекулярная медицина. 2009; 2: 3-13.

2. Aptsiauri N., Cabrera T., Mendez R., Garcia-Lora A., RuizCabello F., Garrido F. Role of altered expression of HLA class I molecules in cancer progression. Adv. Exp. Med. Biol. 2007; 601: 123-31. DOI: https://doi.org/10.1007/978-0-387-72005-0_13

3.Robinson J., Barker D.J., Georgiou X., Cooper M.A., Flicek P., Marsh S.G. IPD-IMGT/HLA Database. Nucleic Acids Res. 2020; 48 (D1): 948-55. DOI: https://doi.org/10.1093/nar/gkz950

4.Dendrou C.A., Petersen J., Rossjohn J., Fugger L. HLA variation and disease. Nat. Rev. Immunol. 2018; 18 (5): 325-39. DOI: https://doi.org/10.1038/nri.2017.143

5.Moutsianas L., Jostins L., Beecham A.H., Dilthey A.T., Xifara D.K., Ban M., Shah T.S., Patsopoulos N.A., Alfredsson L., Anderson C.A., Attfield K.E., Baranzini S.E., Barrett J., Binder T., Booth D., Buck D., Celius E.G., Cotsapas C., D’Alfonso S., Dendrou C.A., Donnelly P., Dubois B., Fontaine B., Fugger L., Goris A., Gourraud P.A., Graetz C., Hemmer B., Hillert J.; International IBD Genetics Consortium (IIBDGC), Kockum I., Leslie S., Lill C.M., Martinelli-Boneschi F., Oksenberg J.R., Olsson T., Oturai A., Saarela J., Søndergaard H.B., Spurkland A., Taylor B., Winkelmann J., Zipp F., Haines J.L., Pericak-Vance M.A., Spencer C., Stewart G., Hafler D.A., Ivinson A.J., Harbo H.F., Hauser S.L., De Jager P.L., Compston A., McCauley J.L., Sawcer S., McVean G. Class II HLA interactions modulate genetic risk for multiple sclerosis. Nat. Genet. 2015; 47 (10): 1107-13. DOI: https://doi.org/10.1038/ng.3395

6.Weinstock C., Matheis N., Barkia S., Haager M.C., Janson A., Marković A., Bux J., Kahaly G.J. Autoimmune polyglandular syndrome type 2 shows the same HLA class II pattern as type 1 diabetes. Tissue Antigens. 2011; 77 (4): 317-24. DOI: https://doi.org/10.1111/j.1399-0039.2011.01634.x

7.Dilthey A.T., Gourraud P.A., Mentzer A.J., Cereb N., Iqbal Z., McVean G. High-Accuracy HLA Type Inference from Whole-Genome Sequencing Data Using Population Reference Graphs. PLoS Comput. Biol. 2016; 12 (10). DOI: https://doi.org/10.1371/journal.pcbi.1005151

8. bcl2fastq and bcl2fastq2 Conversion Software. URL: https://emea.support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software/downloads.html (дата обращения: 15.09.2022)

9. Sequencing Analysis Viewer Support. URL: https://support.illumina.com/sequencing/sequencing_software/sequencing_analysis_viewer_sav.html (дата обращения: 15.09.2022)

10. Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data. URL: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (дата обращения: 15.09.2022)

11. Illumina DRAGEN Bio-IT Platform Variant calling & secondary genomic analysis software tool. URL: https://www.illumina.com/products/by-type/informatics-products/dragen-bio-it-platform.html (дата обращения: 15.09.2022)

12. Schneider V.A., Graves-Lindsay T., Howe K., Bouk N., Chen H.C., Kitts P.A., Murphy T.D., Pruitt K.D., Thibaud-Nissen F., Albracht D., Fulton R.S., Kremitzki M., Magrini V., Markovic C., McGrath S., Steinberg K.M., Auger K., Chow W., Collins J., Harden G., Hubbard T., Pelan S., Simpson J.T., Threadgold G., Torrance J., Wood J.M., Clarke L., Koren S., Boitano M., Peluso P., Li H., Chin C.S., Phillippy A.M., Durbin R., Wilson R.K., Flicek P., Eichler E.E., Church D.M. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res. 2017; 27 (5): 849-64. DOI: https://doi.org/10.1101/gr.213611.116

13. Xie C., Zhen X.Y., Wong M., Piper J., Long T., Kirkness E.F., Biggs W.H., Bloom K., Spellman S., Vierra-Green C., Brady C., Scheuermann R.H., Telenti A., Howard S., Brewerton S., Turpaz Y., Venter J.C. Fast and accurate HLA typing from short-read next-generation sequence data with xHLA. Proc. Natl. Acad. Sci. USA. 2017; 114 (30): 8059-64. DOI: https://doi.org/10.1073/pnas.1707945114

14. Shukla S.A., Rooney M.S., Rajasagi M., Tiao G., Dixon P.M., Lawrence M.S., Stevens J., Lane W.J., Dellagatta J.L., Steelman S., Sougnez C., Cibulskis K., Kiezun A., Hacohen N., Brusic V., Wu C.J., Getz G. Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes. Nat. Biotechnol. 2015; 33 (11): 1152-8. DOI: https://doi.org/10.1038/nbt.3344

15. Szolek A., Schubert B., Mohr C., Sturm M., Feldhahn M., Kohlbacher O. OptiType: precision HLA typing from next-generation sequencing data. J. Bioinform. 2014; 30 (23): 3310-6. DOI: https://doi.org/10.1093/bioinformatics/btu548

16. Ka S., Lee S., Hong J., Cho Y., Sung J., Kim H.N., Kim H.L., Jung J. HLAscan: genotyping of the HLA region using next-generation sequencing data. BMC Bioinform. 2017; 18 (1): 258. DOI: https://doi.org/10.1186/s12859-017-1671-3

17. Lee H., Kingsford C. Kourami: graph-guided assembly for novel human leukocyte antigen allele discovery. Genome Biol. 2018; 19 (1). DOI: https://doi.org/10.1186/s13059-018-1388-2

18. Dilthey A.T., Mentzer A.J., Carapito R., Cutland C., Cereb N., Madhi S.A. HLA*LA-HLA typing from linearly projected graph alignments. Bioinform. 2019; 35 (21): 4394-6. DOI: https://doi.org/10.1093/bioinformatics/btz235

19. MiSeq Reporter Software (MSR). URL: https://www.illumina.com/systems/sequencing-platforms/miseq/products-services/miseq-reporter.html (дата обращения: 15.09.2022)

20. NGSengine GenDx. URL: https://www.gendx.com/product_line/ngsengine/ (дата обращения: 15.09.2022)

21. Pandas-dev/pandas: Pandas 1.4.2. URL: https://zenodo.org/record/6408044 (дата обращения: 15.09.2022)

22. Matplotlib/matplotlib: REL: v3.5.2. URL: https://zenodo.org/record/6513224 (дата обращения: 15.09.2022)

23. Waskom M.L. Seaborn: statistical data visualization. J. Open Source Softw. 2021; 6 (60): 3021. DOI: https://doi.org/10.21105/joss.03021

Материалы данного сайта распространяются на условиях лицензии Creative Commons Attribution 4.0 International License («Атрибуция - Всемирная»)


Журналы «ГЭОТАР-Медиа»