ISSN 0021-3454 (печатная версия)
ISSN 2500-0381 (онлайн версия)
Меню

4
Содержание
том 67 / Апрель, 2024
СТАТЬЯ

DOI 10.17586/0021-3454-2022-65-11-826-832

УДК 004.912: 004.822

ФОРМИРОВАНИЕ ЯДРА ДОКУМЕНТОВ В СИСТЕМАХ ИНТЕРНЕТ-МОНИТОРИНГА В УСЛОВИЯХ РЕСУРСНЫХ ОГРАНИЧЕНИЙ

Кулешов С. В.
СПИИРАН, лаборатория автоматизации научных исследований;


Зайцева А. А.
СПИИРАН, лаборатория автоматизации научных исследований; ст. научный сотрудник


Аксенов А. Ю.
СПбФИЦ РАН, СПИИРАН, лаборатория автоматизации научных исследований ; ст. научный сотрудник


Читать статью полностью 

Аннотация. Рассматриваются особенности разработки систем интернет-мониторинга открытого типа с неограниченным количеством источников в условиях ограниченного объема систем хранения собранных данных. Цель работы — решение задачи формирования множества документов минимально необходимого размера (ядра документов), отвечающего требованиям репрезентативности и вариативности тем при мониторниге сети Интернет. Для формализации и решения поставленной задачи разработана теоретико-множественная модель ядра документов. Предложенный подход отличается использованием вытесняющего алгоритма, поддерживающего в базе данных наличие только актуальных документов в пределах доступного объема системы хранения данных. Приведены результаты эксперимента с использованием реальных данных, подтверждающие применимость разработанной модели. Предложенный подход может быть использован в ряде практических задач, в частности для поиска в сети Интернет сведений (документов, страниц), по которым отсутствует априорная информация, необходимая для поиска по ключевым словам.
Ключевые слова: ядро документов, мониторинг, краулер, поиск документов, интернет-ресурсы

Список литературы:
  1. Zachlod C., Samuel O., Ochsner A., Werthmüller S. Analytics of social media data – state of characteristics and application // Journal of Business Research. 2022. Vol. 144, P. 1064—1076. DOI: 10.1016/j.jbusres.2022.02.016.
  2. Fink C., Toivonen T., Correia R. A., Di Minin E. Mapping the online songbird trade in Indonesia // Applied Geography. 2021. P. 134. DOI:10.1016/j.apgeog.2021.102505.
  3. Han H., Wang C., Zhao Y., Shu M., Wang W., Min Y. SSLE: A framework for evaluating the “Filter bubble” effect on the news aggregator and recommenders // World Wide Web. 2022. N 25(3). P. 1169—1195. DOI: 10.1007/s11280-022-01031-4.
  4. Krewinkel A., Sünkler S., Lewandowski D. et al. Concept for automated computer-aided identification and evaluation of potentially non-compliant food products traded via electronic commerce // Food Control. 2016. N 61, P. 204—212. DOI:10.1016/j.foodcont.2015.09.039.
  5. Беляевский К. О. Формирование октодерева по облаку точек при ограничении объема оперативной памяти // Научно-технический вестник СПбПУ. Информатика. Телекоммуникации. Управление. 2019. Т. 12, № 4. С. 97—110.
  6. Puzak T.R. Analysis of Cache Replacement-Algorithms: Doctor’s Thesis. 1985.
  7. Wilson P. R. et al. Dynamic storage allocation: A survey and critical review // Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 1995. Vol. 986. P. 1—116.
  8. Laliwala Z., Shaikh A. Web Crawling and Data Mining with Apache Nutch. Packt Publ., 2013.
  9. Nasraoui O. Web data mining: exploring hyperlinks, contents, and usage data // ACM SIGKDD Explorations Newsletter. 2008.
  10. Van den Broucke S., Baesens B. From Web Scraping to Web Crawling. Practical Web Scraping for Data Science. Berkeley, CA: Apress, 2018. P. 155—172.
  11. Alkalbani A. M., Hussain W., Kim J. Y. A Centralised Cloud Services Repository (CCSR) Framework for Optimal Cloud Service Advertisement Discovery from Heterogenous Web Portals // IEEE Access. 2019. Vol. 7. P. 128213—128223. DOI: 10.1109/ACCESS.2019.2939543.
  12. Wu Z., Cai Z., Tang, X., Xu Y., Deng T. A forward and backward private oblivious RAM for storage outsourcing on edge-cloud computing // Journal of Parallel and Distributed Computing. 2022. Vol. 166. P. 1—14. DOI: 10.1016/j.jpdc.2022.04.008.
  13. Зайцева А. А., Кулешов С. В., Михайлов С. Н. Метод оценки качества текстов в задачах аналитического мониторинга информационных ресурсов // Тр. СПИИРАН. 2014. Вып. 37. C. 144—155.
  14. Кулешов С. В., Зайцева А. А., Левашкин С. П. Технологии и принципы сбора и обработки неструктурированных распределенных данных с учетом современных особенностей предоставления медиа-контента // Информатизация и связь. 2020. № 4. С. 62—66.
  15. Kuleshov S., Zaytseva A., Aksenov A. Natural Language Search and Associative-Ontology Matching Algorithms Based on Graph Representation of Texts // Intelligent Systems Applications in Software Engineering, CoMeSySo 2019; Advances in Intelligent Systems and Computing. 2019. Vol. 1046. P. 7—26. DOI 10.1007/978-3-030-30329-7_26.