Исследование алгоритма кластеризации белковых последовательностей в задаче восстановления пространственной структуры белка по известной последовательности аминокислот
ВВЕДЕНИЕ
Белки – невероятно разнообразные биологические молекулы, необходимые организму на протяжении всей жизни. Почти каждая функция нашего тела - превращение пищи в энергию, обработка нейронов, перенос кислорода, выработка антител, выстраивание иммунной системы - зависит от белков. Белки лежат в основе каждого биологического процесса в каждом живом существе и являются сложными изысканными молекулярными машинами. Без них просто невозможна наша жизнь и жизнь других организмов. Белки есть всегда и везде, они являются биополимерами, высокими молекулярными веществами. Разделяют четыре уровня организации белков.
Первичная структура белка - простейший уровень организации, представляет собой уникальную последовательность аминокислот в полипептидной цепи, изображенную на Рисунке 1. Аминокислоты в первичной структуре сравнимы с буквами в словах. Из двадцати видов аминокислот можно составить бесконечное количество белков.
Рисунок 1 - первичная структура белка
Каждая аминокислота
Содержание
Введение….……………………………………………………………………...…...3
Глава 1. Математические методы восстановления пространственной структуры белка по известной последовательности аминокислот с использованием нейронных…….………………...7
1.1. Популяризация изучения проблемы восстановления пространственной структуры белка……………………………………………………………………...7
1.2. Алгоритм AlphaFold…………………………………………………………10
1.2.1. Множественное выравнивание последовательностей MSA……………...11
1.2.2. Построение таблицы парного выравнивания……………………………...13
1.2.3. Модуль Evoformer…………………………………………………………...14
1.2.4. Структурный модуль………………………………………………………...15
Глава 2. Кластеризация…..………………………………………………………...16
2.1. Алгоритмы кластеризация…...……………………………………………...16
2.2. Алгоритм Linclust…...……………..…………………………......................18
2.2.1. Подготовка данных……………….…………………………………………21
2.2.2. Генерация таблицы k-меров………...………………………………………23
2.2.3. Поиск точных совпадений………………………………………..………..24
2.2.4. Предварительная кластеризация расстояния Хэмминга……………...…..25
2.2.5. Фильтрация выравнивания без пропусков и с пропусками……………....26
2.2.6. Жадная инкрементная кластеризация……………………………………...27
Глава 3. Практическая часть……………………………………………………….29
3.1. Эксперимент…………………………………………………………………29
Заключение………………….………………………………………………………35
Список литературы…………………………………………………………………36
Приложение…………………..……………………………………………….…….38
СПИСОК ЛИТЕРАТУРЫ
1. Айдагулов, Р. Р. Модели кластеризации. Фундаментальная и прикладная математика // Р. Р. Айдагулов, С. Т. Главацкий, А. В. Михалёв. Национальный Открытый Университет «ИНТУИТ». 2020. Т. 23, № 2, С. 17—36.
2. Липницкий В. А. Линейные коды и кодовые последовательности: учеб.-метод. пособие для студентов мех.-мат. фак. БГУ / В. А. Липницкий, Н.В. Чесалин. – Минск: БГУ, 2008. – 41 с.
3. Прокис, Д. Цифровая связь // Д. Прокис. Пер. с англ. / Под ред. Д. Д. Кловского. - М.: Радио и связь. 2000. - 800 с.
4. Сивоголовко, Е.В. Методы оценки качества четкой кластеризации // Е.В. Сивоголовко. КИО. 2011. №4.
5. Сликтер, Ч. Основы теории магнитного резонанса. 2-е, издание // Ч. Сликтер. Перевод Н. Н. Корста, Б. Н. Провоторова и А. П. Степанова под редакцией д-ра физ.-мат. наук, проф. Г. В. Скроцкого. - М.: Мир, 1981. - 448 с.
6. Суплатов, Д.А. Гибридные вычислительные кластеры для изучения структуры, функции и регуляции белков // Д. А. Суплатов, Н. Н. Попова, К. Е. Копылов. Вестник ЮУрГУ. Серия: Вычислительная Математика и информатика. 2017. Т. 6, № 4. С. 74 - 90.
7. Шаскольская, М. П. Кристаллография: учебник для втузов / М. П. Шаскольская. - М.: Высшая школа, 1976. – 392 с.
8. Anfinsen, C.B. The kinetics of formation of native ribonuclease during oxidation of the reduced polypeptide chain // C. B. Anfinsen, E. Haber, M. Sela. Proc. Natl. Acad. Sci. USA. 1961, 47( 9), 1309–1314.
9. Evans, R. De novo structure prediction with deep-learning based scoring // R. Evans, J.Jumper, J.Kirkpatrick. Equal contribution, DeepMind, London, UK, 2020.
10. Fiser, A. Template-Based Protein Structure Modeling. In: Fenyo D. (eds) Computational Biology. Methods in Molecular Biology (Methods and Protocols), vol 673. 2010. Humana Press, Totowa, NJ.
11. Jones, C.G. The CryoEM Method MicroED as a Powerful Tool for Small Molecule Structure Determination // C.G. Jones, M.W. Martynowycz, J. Hattne. ACS Central Science. 2018. 4 (11): 1587–1592.
12. Jumper, J. Highly accurate protein structure prediction with AlphaFold // J. Jumper, R. Evans, A. Pritzel. Nature 596. 2021, 583–589.
13. Jumper, J. High Accuracy Protein Structure Prediction Using Deep Learning // J. Jumper, R. Evans, A. Pritzel.: [Электронный ресурс] – 2020. URL: https://www.deepmind.com/blog/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology.
14. Senior, A.W. Impr
При этом предполагается, что последовательности, попадающие в один кластер, будут находиться на меньшем расстоянии друг от друга, нежели те, которые находятся в разных кластерах. Расстояние между объектами в многомерном пространстве признаков будет определять их сходство. В отличие от задачи классификации, в задаче кластеризации на входе не задается список кластеров, и он определяется в ходе работы алгоритма.
Процесс кластеризации зависит от большого количества факторов: выбор метрики, метода, числа кластеров, которое обычно заранее неизвестно, входных наборов данных, объем которых может не помещаться в памяти компьютера и создавать ограничения в выбранном методе.
Стандартный процесс кластеризации вне зависимости от алгоритма можно разделить на несколько этапов[18]:
Извлечение и выбор наиболее репрезентативных элементов из исходного набора данных;
Разработка алгоритма кластеризации в соответствии с характеристиками задачи;
Оценка р