Анализ HTML-формата для автоматического сбора информации в сети Интернет
Введение
Распространение цифрового контента в Интернете сделало сбор и анализ информации важной задачей для бизнеса, исследователей и правительств. В этом контексте язык гипертекстовой разметки (HTML) стал преобладающим форматом для представления информации в Интернете. HTML - это язык разметки, который определяет структуру и содержимое веб-страниц, обеспечивает стандарт для веб-браузеров для отображения страниц.
Однако, ручное извлечение данных с веб-страниц может быть трудоемким и подверженным ошибкам процессом, что приводит к необходимости использования автоматических методов сбора информации. Один из процессов извлечения данных с веб-страниц – парсинг стал популярным методом автоматического сбора данных из сети Интернет.
Парсинг сайтов в настоящее время используется для самых разных целей. Этот метод включает в себя автоматическое извлечение данных с веб-сайтов с помощью программных инструментов, которые имитируют поведение человека при просмотре.
СодержаниеСодержание2
Список сокращений3
Введение4
1.Анализ HTML-формата7
1.1HTML-формат7
1.2История возникновения HTML-формата8
1.3 Преимущества и недостатки HTML-формата10
1.4. Структура HTML-формата11
1.5. HTML и CSS13
1.6. HTML и JavaScript15
Вывод по главе17
2.Анализ методов и способов автоматического сбора информации в сети Интернет18
2.1Определение автоматического сбора информации в сети18
Интернет18
2.2Веб-краулеры и парсеры веб-страниц20
2.3Как работают веб-краулеры популярных поисковых систем25
2.4Юридические аспекты автоматического сбора информации в сети Интернет27
2.5 Инструменты для парсинга веб-страниц HTML-формата28
Вывод по главе30
3.Разработка программного обеспечения для автоматического сбора информации в сети Интернет и оценка его эффективности31
3.1Определение целей и планирование разработки, VPN31
3.2 Разработка программного обеспечения для автоматического сбора информации в сети Интернет35
3.3 Проверка свойств алгоритма43
Вывод по главе44
4.Расчеты экономической эффективности45
4.1Расчет трудоемкости проекта45
4.2Затраты на выполнение проекта46
4.3Расчет эффективности работы программного обеспечения50
Вывод по главе51
Заключение53
Литература54
Приложение А – Листинг разработанного ПО57
Литература
1. Джон Дакетт. HTML и CSS. Разработка и дизайн веб-сайтов, 2022 г.
2. Джон Даккет. Основы веб-программирования с использованием HTML, XHTML и CSS, 2010 г.
3. Справочник по HTML [Электронный ресурс] - http://htmlbook.ru/ (дата обращения 11.02.2023)
4. Веб-технологии для разработчиков [Электронный ресурс] - https://developer.mozilla.org/ru/docs/Web (дата обращения 11.02.2023)
5. Европейская организация ядерных исследований [Электронный ресурс] - https://ria.ru/20190929/1559197190.html (дата обращения 12.02.2023)
6. Райан Митчелл. Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета, 2016 г.
7. Веб-сканирование и веб-скрапинг [Электронный ресурс] - https://ru-brightdata.com/blog/leadership-ru/web-crawling-vs-web-scraping (дата обра-щения 07.03.2023)
8. Что такое веб-краулеры [Электронный ресурс] - https://ru-brightdata.com/blog/web-data-ru/what-is-a-web-crawler (дата обращения 08.03.2023)
9. Olgun Aydin. R Web Scraping Quick Start Guide: Techniques and tools to crawl and scrape data from websites, 2018 г.
10. О файлах robots.txt [Электронный ресурс] - https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=ru
11. Что такое поисковый робот Google (агент пользователя) [Электронный ресурс]- https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers?hl=ru (дата обращения 08.03.2023)
12. Парсинг сайтов. Россия и мир. Как с точки зрения закона выглядит один из самых полезных инструментов? [Электронный ресурс] - https://vc.ru/legal/64328-parsing-saytov-rossiya-i-mir-kak-s-tochki-zreniya-zakona-vyglyadit-odin-iz-samyh-poleznyh-instrumentov (дата обращения 10.03.2023)
Поисковые роботы также используются для множества других целей, таких как мониторинг веб-сайтов на предмет изменений или обновлений, обнаружение и устранение угроз кибербезопасности, а также сбор информации о конкурентах. Кроме того, поисковые роботы используются исследователями и учеными для изучения онлайн-поведения, отслеживания тенденций и сбора данных для анализа.
Однако, у веб-краулеров могут появиться ограничения и проблемы в процессе их работы (табл. 2.2) [8].
Таблица 2.2
Проблемы, с которыми сталкиваются поисковые роботы
Проблема Описание проблемы
Ограничения robots.txt Если поисковый робот соблюдает ограничения robots.txt, он не сможет получить доступ к определенным страницам или отправить запросы, превышающие произвольное ограничение.
Блокировки IP адресов Поскольку некоторые поисковые роботы не соблюдают ограничения robots.txt