Анализ возможности трансляции sql запроса для обращения к data lake
Введение
Поиск возможностей консолидации данных из нескольких различных источников является актуальной задачей, потому что на данный момент получение достоверной информации часто встречающаяся проблема. Ранее она решалась путём организации общего источника данных, но сейчас перед информационными системами стоят наиболее сложные задачи. Зачастую современные информационные системы вынуждены работать с данными из различных источников ввиду чего возникает проблема их некачественной синхронизации, появления новых способов сбора, как следствие повышение сложности и вероятности возникновения ошибок. Кроме того, сбор информации из нескольких источников без учёта их особенностей может сильно замедлить работу системы или породить несогласованность данных там, где это недопустимо [4].
Сегодня существуют базы данных, предназначенные для данных различного уровня структурированности [8]. Для наиболее эффективного выполнения конкретных задач подходят системы управления базами данных с принципиально
Оглавление
Введение 5
1 Классификации баз данных 8
2 Реляционные базы данных 10
2.1 Достоинства и недостатки реляционных баз данных 10
2.2 Оптимизация работы реляционных баз данных 11
2.3 Представление запросов и схем реляционной базы данных 15
2.4 Распределение базы данных 18
3 Озеро данных 20
3.1 Сравнение озера данных с хранилищем данных 22
3.2 Преимущества использования гибридного решения «Хранилище данных и озеро данных» 24
3.3 Архитектура озера данных 26
4 Базы данных NoSQL 28
4.1 Классификация NoSQL баз данных 29
4.2 Сравнение реляционных и NoSQL баз данных 32
5 Анализ существующих NoSQL решений различных классификаций 34
5.1 NoSQL СУБД Apache Cassandra 34
5.2 Аналитическая NoSQL СУБД Elasticsearch 42
5.3 NoSQL хранилище данных типа «ключ-значение» Redis 45
5.4 Документно-ориентированная NoSQL СУБД MongoDB 48
6 Анализ возможности трансляции SQL-запроса для получения NoSQL данных формата MongoDB 51
6.1 Языки запросов SQL и Mongo QL 52
6.2 Алгоритм трансляции SQL-запроса для получения NoSQL данных формата MongoDB 55
Заключение 60
Список использованных источников 66
Список использованных источников
1. Томский государственный университет систем управления и радиоэлектроники [Электронный ресурс]: сайт ТУСУР. URL: https://tusur.ru (дата обращения: 20.11.2022).
2. Кафедра экономической математики, информатики и статистики (ЭМИС) [Электронный ресурс]: сайт ТУСУР URL: https://tusur.ru/ru/o-tusure/struktura-i-organy-upravleniya/departament-obrazovaniya/fakultety-ikafedry/fakultet-vychislitelnyh-sistem/kafedra-ekonomicheskoy-matematikiinformatiki-i-statistiki (дата обращения: 20.11.2022).
3. Базы данных: Методические указания по проведению лабораторных, практических и самостоятельных работ [Электронный ресурс]: сайт ТУСУР. URL: https://edu.tusur.ru/publications/7589 (дата обращения 25.11.2022).
4. Модели данных [Электронный ресурс]: сайт Технология баз данных и знаний. URL: http://bseu.by/it/tohod/lekcii2_3.htm (дата обращения 25.11.2022).
5. Консолидация баз данных: этапы, методы и примеры [Электронный ресурс]: сайт Хабр. URL: https://habr.com/ru/companies/ruvds/articles/732006/ (дата обращения 27.11.2022).
6. Top Database index [Электронный ресурс]: сайт TOPDB URL: https://pypl.github.io/DB.html (дата обращения 27.11.2022).
7. Stack Overflow Developer Survey 2021. [Электронный ресурс]: сайт Stack Overflow. URL: https://insights.stackoverflow.com/survey/2021 (дата обращения 27.11.2022).
8. A relational model of data for large shared data banks [Электронный ресурс]: сайт ACM DIGITAL LIBRARY. URL: https://habr.com/ru/company/otus/blog/577078/ (дата обращения 04.12.2022).
9. Самые популярные базы данных NoSQL, поддерживаемые ClusterControl [Электронный ресурс]: сайт Хабр. URL: https://habr.com/ru/ company/otus/blog/577078/ (дата обращения 04.12.2022).
10. Работа с базой данных MongoDB [Электронный ресурс]: сайт Метанит. URL: https://metanit.com/nosql/mongodb/2.1.php (дата обращения 15.12.2022).
11. MongoDB документация [Электронный ресурс]: сайт MongoDB. URL: https://www.mongodb.com/docs/atlas/ (дата обращения 20.12.2022).
12. Теория языков программирования и методы трансляции [Электронный ресурс]: сайт Ermak. URL: http://ermak.cs.nstu.ru/trans/ (дата обращения 29.12.2022).
13. Как базы данных ключ-значение обеспечивают производительность и масштабируемость без границ [Электронный ресурс]: сайт Хабр. URL: https://habr.com/ru/post/503526/ (дата обращения 19.01.2023).
14. Сравнительные характеристики SQL и NoSQL СУБД, влияющие на разработку приложений баз данных [Электронный ресурс]: сайт Top Technologies. URL: https://top-technologies.ru/ru/article/view?id=39236 (дата обращения:25.01.2023).
15. База данных. Понятие, значение и роль в современном мире Современные инновации в образовании [Электронный ресурс]: сайт КиберЛенинка. URL: https://cyberleninka.ru/article/n/baza dannyh - ponyatie znachenie i rol v sovremennom-mire/viewer (дата обращения: 12.02.2023).
16. Автоматическая трансляция запросов из формата MySQL в формат MongoDB с учетом структуры базы данн
Этот слой хранения обеспечивает гибкую аналитическую архитектуру, которая может обрабатывать транзакции, отвечающие требованиям ACID, для обеспечения надежности данных, потоковых интеграций и реализации расширенных функций, таких как управление версиями данных и применение схем. Это позволяет осуществлять разнообразную аналитическую деятельность на базе озера данных, не нарушая при этом целостность основных данных. Хотя необходимость в использовании гибридного решения хранения зависит от того, насколько разнородными являются данные, потребляемые системой, его гибкость и широкий спектр возможностей делают такое решение оптимальным выбором для многих систем [26].
Гибридное решение предоставляет следующие преимущества:
данные могут быть структурированными, полу структурированными и неструктурированными в зависимости от их