ISSN 0021-3454 (печатная версия)
ISSN 2500-0381 (онлайн версия)
Меню

4
Содержание
том 67 / Апрель, 2024
СТАТЬЯ

DOI 10.17586/0021-3454-2023-66-12-1002-1010

УДК 004.912: 004.822

ФЕНОМЕНОЛОГИЧЕСКОЕ ОПИСАНИЕ ПРОЦЕССОВ СБОРА И ОБРАБОТКИ ИНТЕРНЕТ-ДОКУМЕНТОВ

Кулешов С. В.
СПИИРАН, лаборатория автоматизации научных исследований;


Зайцева А. А.
СПИИРАН, лаборатория автоматизации научных исследований; ст. научный сотрудник

Ссылка для цитирования : Кулешов С. В., Зайцева А. А. Феноменологическое описание процессов сбора и обработки интернет-документов // Изв. вузов. Приборостроение. 2023. Т. 66, № 12. С. 1002—1010. DOI: 10.17586/0021-3454-2023-66-12-1002-1010.

Аннотация. Проанализировано состояние сети Интернет как хранилища информационных ресурсов с точки зрения бота — программы, занимающейся сбором данных в целях мониторинга ресурсов, наполнения поисковой системы или других коммерческих или исследовательских целях. Предложен подход к описанию исследуемой проблемы через совокупность феноменов, возникающих при сборе документов в Интернете. Описанные феномены необходимо учитывать при построении систем мониторинга либо поисковых систем. Приведен ряд особенностей, возникающих при веб-скрейпинге, харвестинге и в других случаях использования ботов для сбора данных в сети Интернет. Описаны проблемы использования поддоменов, рекурсивных поддоменов, технологий динамически загружаемого контента, поисковой оптимизации текстового контента и других. Показано, что задача сбора данных с интернет-ресурсов является не только технологической, но и в большей степени наукоемкой, а поскольку исследования находятся в активной фазе, для них не существует „коробочного“ решения. Статья будет полезна исследователям в области развития Интернета, разработчикам поисковых систем, специалистам по дата-ретривингу и интернет-технологиям, а также специалистам в области создания и поддержки интернет-ресурсов и в области интернет-маркетинга.
Ключевые слова: интернет-документы, технологии сбора данных, дата-ретривинг, поисковые системы, интернет-ресурсы

Благодарность: работа поддержана Государственным заданием на 2023 г. № FFZF-2022-0005.

Список литературы:
  1. Berners-Lee T. Information Management: A Proposal. CERN, March 1989, May 1990 [Электронный ресурс]: .
  2. RFC 1945 [Электронный ресурс]: .
  3. Barnet B. Memory Machines: The Evolution of Hypertext. Anthem Press, 2013.
  4. Olston C. and Najork M. Web Crawling, Foundation and Trends // Information Retrieval. 2010. Vol. 4, N 3. P. 175—246.
  5. Najork M., Heydon A. High-Performance Web Crawling // Handbook of Massive Data Sets. Massive Computing / Ed. by J. Abello, P. M. Pardalos, M. G. C. Resende. Springer, Boston, MA, 2002. Vol. 4. https://doi.org/10.1007/978-1-4615-0005-6_2.
  6. Laliwala Z., Shaikh A. Web Crawling and Data Mining with Apache Nutch. Packt Publishing, 2013.
  7. Nasraoui O. Web data mining: exploring hyperlinks, contents, and usage data // ACM SIGKDD Explorations Newsletter, 2008. DOI: https://doi.org/10.1145/1540276.1540281.
  8. Chakrabarti S. Mining the Web: Discovering knowledge from hypertext data. Elsevier, 2003.
  9. Castillo C. Effective web crawling // ACM SIGIR Forum. 2005. DOI: https://doi.org/10.1145/1067268.1067287.
  10. Boeing G., Waddell P. New Insights into Rental Housing Markets across the United States: Web Scraping and Analyzing Craigslist Rental Listings // Journal of Planning Education and Research. 2017. Vol. 37, N 4. DOI:10.2139/ssrn.2781297.
  11. Practical Web Scraping for Data Science. Apress, Berkeley, CA, 2018. https://doi.org/10.1007/978-1-4842-3582-9_6.
  12. Bloch J. How to design a good API and why it matters // Companion to the 21st ACM SIGPLAN Symp. on Object-oriented Programming Systems, Languages, and Applications. 2006. Р. 506—507.
  13. Robillard M. P. et al. Automated API property inference techniques // IEEE Transactions on Software Engineering. 2012. Vol. 39, N 5. Р. 613—637.
  14. Ofoeda J., Boateng R., Effah J. Application programming interface (API) research: A review of the past to inform the future // Intern. J. of Enterprise Information Systems (IJEIS). 2019. Vol. 15, N 3. Р. 76—95.
  15. Qi L. et al. Data-driven web APIs recommendation for building web applications // IEEE Transactions on Big Data. 2020. Vol. 8, N 3. Р. 685—698.
  16. Единый реестр доменных имен, указателей страниц сайтов в сети „Интернет“ и сетевых адресов, позволяющих идентифицировать сайты в сети „Интернет“, содержащие информацию, распространение которой в Российской Федерации запрещено [Электронный ресурс]: .
  17. HTML::LinkExtor - Extract links from an HTML document [Электронный ресурс]: .
  18. Немного на тему разработки веб-архивов [Электронный ресурс]: .
  19. Насколько умны поисковые роботы? // Типичные ошибки внутренней оптимизации. Вып. 76 [Электронный ресурс]: .
  20. Google пытается проиндексировать Невидимую Сеть [Электронный ресурс]: .
  21. Googlebot начал делать POST-запросы через Ajax [Электронный ресурс]: .
  22. Якушев А. В., Дейкстра Л. Сетецентрические технологии сбора данных в Интернет [Электронный ресурс]: .
  23. Поисковые технологии Яндекса [Электронный ресурс]: .
  24. Поисковые технологии или в чем загвоздка написать свой поисковик [Электронный ресурс]: .
  25. HtmlUnit – JavaScript Tutorial [Электронный ресурс]: .
  26. Поддомены: что это такое и зачем они нужны? [Электронный ресурс]: .
  27. RFC1035: Domain Names – Implementation And Specification. Network Working Group, November 1987 [Электронный ресурс]: .
  28. Большой гайд по UTM-меткам: как узнать, откуда приходят пользователи [Электронный ресурс]: .
  29. A Standard for Robot Exclusion [Электронный ресурс]: .
  30. Kuleshov S., Zaytseva A., Aksenov A. Natural Language Search and Associative-Ontology Matching Algorithms Based on Graph Representation of Texts // Intelligent Systems Applications in Software Engineering. Advances in Intelligent Systems and Computing / Ed. by R. Silhavy, P. Silhavy, Z. Prokopova. Springer, Cham, 2019. Vol. 1046. P. 285—294. DOI 10.1007/978-3-030-30329-7_26.
  31. Михайлов С. Н., Кулешов С. В. Экспертный мониторинг неструктурированных информационных ресурсов в интересах информационно-аналитического обеспечения космических исследований // Изв. Юго-Западного государственного университета. 2013. № 6-2(51). С. 40—43.
  32. Зайцева А. А., Кулешов С. В., Михайлов С. Н. Метод оценки качества текстов в задачах аналитического мониторинга информационных ресурсов // Тр. СПИИРАН. 2014. Вып. 37. C. 144—155.
  33. Москаленко А. А., Лапонина О. Р., Сухомлин В. А. Разработка приложения веб-скрапинга с возможностями обхода блокировок // Современные информационные технологии и ИТ-образование. 2019. Т. 15, № 2. С. 413—420.
  34. Игнатьев А. Г., Линдре Ю. А. Актуальные тренды регулирования Интернета: от открытого пространства безграничной свободы к региональной и страновой фрагментации. М.: Центр компетенций по глобальной ИТ-кооперации, 2023. 30 с. EDN EHZLLW.
  35. Куликова А. В. О фрагментации интернета: старые вопросы и новые вызовы // Индекс безопасности. 2015. Т. 21, № 1(112). С. 115—120. EDN XBFPKZ.