Анализ HTML-формата для автоматического сбора информации в сети Интернет

Скачать хорошую дипломную работу на тему: Анализ HTML-формата для автоматического сбора информации в сети Интернет. В работе рассматривается сокращение времени анализа HTML-формата для автоматического сбора информации в сети Интернет.

Fadis

Тип

Дипломная работа

Дата загрузки

31.08.2024

Объем файла

352 Кб

Количество страниц

Уникальность

Неизвестно

Стоимость работы:

1840 руб.

~~2300 руб.~~

Купить работу Повысить оригинальность до 80-100%

Заказать написание работы может стоить дешевле

Введение

Распространение цифрового контента в Интернете сделало сбор и анализ информации важной задачей для бизнеса, исследователей и правительств. В этом контексте язык гипертекстовой разметки (HTML) стал преобладающим форматом для представления информации в Интернете. HTML - это язык разметки, который определяет структуру и содержимое веб-страниц, обеспечивает стандарт для веб-браузеров для отображения страниц.
Однако, ручное извлечение данных с веб-страниц может быть трудоемким и подверженным ошибкам процессом, что приводит к необходимости использования автоматических методов сбора информации. Один из процессов извлечения данных с веб-страниц – парсинг стал популярным методом автоматического сбора данных из сети Интернет.
Парсинг сайтов в настоящее время используется для самых разных целей. Этот метод включает в себя автоматическое извлечение данных с веб-сайтов с помощью программных инструментов, которые имитируют поведение человека при просмотре.

СодержаниеСодержание2
Список сокращений3
Введение4
1.Анализ HTML-формата7
1.1HTML-формат7
1.2История возникновения HTML-формата8
1.3 Преимущества и недостатки HTML-формата10
1.4. Структура HTML-формата11
1.5. HTML и CSS13
1.6. HTML и JavaScript15
Вывод по главе17
2.Анализ методов и способов автоматического сбора информации в сети Интернет18
2.1Определение автоматического сбора информации в сети18
Интернет18
2.2Веб-краулеры и парсеры веб-страниц20
2.3Как работают веб-краулеры популярных поисковых систем25
2.4Юридические аспекты автоматического сбора информации в сети Интернет27
2.5 Инструменты для парсинга веб-страниц HTML-формата28
Вывод по главе30
3.Разработка программного обеспечения для автоматического сбора информации в сети Интернет и оценка его эффективности31
3.1Определение целей и планирование разработки, VPN31
3.2 Разработка программного обеспечения для автоматического сбора информации в сети Интернет35
3.3 Проверка свойств алгоритма43
Вывод по главе44
4.Расчеты экономической эффективности45
4.1Расчет трудоемкости проекта45
4.2Затраты на выполнение проекта46
4.3Расчет эффективности работы программного обеспечения50
Вывод по главе51
Заключение53
Литература54
Приложение А – Листинг разработанного ПО57

Литература

1. Джон Дакетт. HTML и CSS. Разработка и дизайн веб-сайтов, 2022 г.

2. Джон Даккет. Основы веб-программирования с использованием HTML, XHTML и CSS, 2010 г.

3. Справочник по HTML [Электронный ресурс] - http://htmlbook.ru/ (дата обращения 11.02.2023)

4. Веб-технологии для разработчиков [Электронный ресурс] - https://developer.mozilla.org/ru/docs/Web (дата обращения 11.02.2023)

5. Европейская организация ядерных исследований [Электронный ресурс] - https://ria.ru/20190929/1559197190.html (дата обращения 12.02.2023)

6. Райан Митчелл. Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета, 2016 г.

7. Веб-сканирование и веб-скрапинг [Электронный ресурс] - https://ru-brightdata.com/blog/leadership-ru/web-crawling-vs-web-scraping (дата обра-щения 07.03.2023)

8. Что такое веб-краулеры [Электронный ресурс] - https://ru-brightdata.com/blog/web-data-ru/what-is-a-web-crawler (дата обращения 08.03.2023)

9. Olgun Aydin. R Web Scraping Quick Start Guide: Techniques and tools to crawl and scrape data from websites, 2018 г.

10. О файлах robots.txt [Электронный ресурс] - https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=ru

11. Что такое поисковый робот Google (агент пользователя) [Электронный ресурс]- https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers?hl=ru (дата обращения 08.03.2023)

12. Парсинг сайтов. Россия и мир. Как с точки зрения закона выглядит один из самых полезных инструментов? [Электронный ресурс] - https://vc.ru/legal/64328-parsing-saytov-rossiya-i-mir-kak-s-tochki-zreniya-zakona-vyglyadit-odin-iz-samyh-poleznyh-instrumentov (дата обращения 10.03.2023)

Поисковые роботы также используются для множества других целей, таких как мониторинг веб-сайтов на предмет изменений или обновлений, обнаружение и устранение угроз кибербезопасности, а также сбор информации о конкурентах. Кроме того, поисковые роботы используются исследователями и учеными для изучения онлайн-поведения, отслеживания тенденций и сбора данных для анализа.
Однако, у веб-краулеров могут появиться ограничения и проблемы в процессе их работы (табл. 2.2) [8].
Таблица 2.2
Проблемы, с которыми сталкиваются поисковые роботы
Проблема Описание проблемы
Ограничения robots.txt Если поисковый робот соблюдает ограничения robots.txt, он не сможет получить доступ к определенным страницам или отправить запросы, превышающие произвольное ограничение.
Блокировки IP адресов Поскольку некоторые поисковые роботы не соблюдают ограничения robots.txt

3800 руб.

Дипломная работа «Основные положения теории защиты информации»

2800 руб.

Дипломная работа «Разработка проекта экспертной системы оценки качества выпускаемой продукции»

3000 руб.

Дипломная работа «Технология производства развлекательного контента на радиостанциях в России»

2500 руб.