<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">pribor</journal-id><journal-title-group><journal-title xml:lang="ru">Известия высших учебных заведений. Приборостроение</journal-title><trans-title-group xml:lang="en"><trans-title>Journal of Instrument Engineering</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">0021-3454</issn><issn pub-type="epub">2500-0381</issn><publisher><publisher-name>Национальный исследовательский университет ИТМО</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.17586/0021-3454-2025-68-11-919-926</article-id><article-id custom-type="elpub" pub-id-type="custom">pribor-425</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>ИНФОРМАТИКА И ИНФОРМАЦИОННЫЕ ПРОЦЕССЫ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>INFORMATICS AND INFORMATION PROCESSES</subject></subj-group></article-categories><title-group><article-title>Архитектурные и технологические решения для систем сбора и управления потоками неструктурированных данных</article-title><trans-title-group xml:lang="en"><trans-title>Architectural and technological solutions to systems for collecting and managing unstructured data flows</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Кулешов</surname><given-names>С. В.</given-names></name><name name-style="western" xml:lang="en"><surname>Kuleshov</surname><given-names>S. V.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Сергей Викторович Кулешов — д-р техн. наук, профессор РАН; СПИИРАН, лаборатория автоматизации научных исследований; главный научный сотрудник</p><p>Санкт-Петербург </p></bio><bio xml:lang="en"><p>Sergey V. Kuleshov — Dr. Sci., Professor of the RAS;  St. Petersburg Institute for Informatics and Automation of the RAS, Laboratory of Scientific Research Automation; Chief Researcher</p><p>St. Petersburg </p></bio><email xlink:type="simple">kuleshov@iias.spb.su</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Зайцева</surname><given-names>А. А.</given-names></name><name name-style="western" xml:lang="en"><surname>Zaytseva</surname><given-names>A. A.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Александра Алексеевна Зайцева — канд. техн. наук, доцент; СПИИРАН, лаборатория автоматизации научных исследований; старший научный сотрудник</p><p>Санкт-Петербург </p></bio><bio xml:lang="en"><p>Alexandra A. Zaytseva — PhD, Associate Professor; St. Petersburg Institute for Informatics and Automation of the RAS, Laboratory of Scientific Research Automation; Senior Researcher</p><p>St. Petersburg </p></bio><email xlink:type="simple">cher@iias.spb.su</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru"><institution>Санкт-Петербургский Федеральный исследовательский центр Российской академии наук</institution></aff><aff xml:lang="en"><institution>St. Petersburg Federal Research Center of the RAS</institution></aff></aff-alternatives><pub-date pub-type="collection"><year>2025</year></pub-date><pub-date pub-type="epub"><day>15</day><month>12</month><year>2025</year></pub-date><volume>68</volume><issue>11</issue><fpage>919</fpage><lpage>926</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Национальный исследовательский университет ИТМО, 2025</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="ru">Национальный исследовательский университет ИТМО</copyright-holder><copyright-holder xml:lang="en">Национальный исследовательский университет ИТМО</copyright-holder><license xlink:href="https://pribor.ifmo.ru/jour/about/submissions#copyrightNotice" xlink:type="simple"><license-p>https://pribor.ifmo.ru/jour/about/submissions#copyrightNotice</license-p></license></permissions><self-uri xlink:href="https://pribor.ifmo.ru/jour/article/view/425">https://pribor.ifmo.ru/jour/article/view/425</self-uri><abstract><p>Рассмотрена задача обработки больших объемов неструктурированных данных, получаемых из открытых веб-источников, в условиях ограниченных ресурсов хранения и роста доли спам-контента. Цель исследования — разработка архитектурных и технологических решений для эффективного управления потоками неструктурированных данных, включая поддержание актуального состояния ядра документов, релевантных предметной области. Предложены варианты реализации технологий вытесняющего хранения данных и отложенного веб-скрейпинга. Вытесняющее хранение позволяет управлять данными в системах с фиксированным объемом памяти, используя критерии значимости документов: время создания, соответствие предметной области и уровень дублирования. Технология отложенного скрейпинга предназначена для обогащения данных путем дополнения и уточнения информации из открытых источников без создания пиковой нагрузки на внешние ресурсы. Предложен вариант решения задачи поддержания в актуальном состоянии ядра документов, релевантных состоянию предметной области. Предложена архитектура системы вытесняющего хранения и отложенного скрейпинга, которая позволяет эффективно управлять данными при экспоненциальном росте контента. Полученные результаты могут применяться для совершенствования методов обработки агрегированного и синтетического контента, получаемого из открытых источников.</p></abstract><trans-abstract xml:lang="en"><p>The problem of processing large amounts of unstructured data obtained from open web sources in conditions of limited storage resources and a growing proportion of spam content is considered. The aim of the research is to develop architectural and technological solutions for effective management of unstructured data flows, including maintaining the current state of the core of domain-specific documents. Options for implementing technologies for proactive data storage and deferred web scanning are offered. Preferential storage allows you to manage data in systems with a fixed amount of memory, using criteria for the importance of documents: creation time, compliance with the subject area and the level of duplication. Deferred analysis technology is designed to enrich data by supplementing and clarifying information from open sources without creating a peak load on external resources. A solution to the problem of maintaining an up-todate core of documents related to the state of the subject area is proposed. The architecture of a proactive storage and deferred web scraping system is proposed, which allows efficient data management with exponential content growth. The results obtained can be used to improve the methods of processing aggregated and synthetic content obtained from open sources.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>интернет-документы</kwd><kwd>искусственные нейронные сети</kwd><kwd>интернет-ресурсы</kwd><kwd>технологии искусственного интеллекта</kwd><kwd>обогащение данных</kwd><kwd>веб-скрейпинг</kwd></kwd-group><kwd-group xml:lang="en"><kwd>Internet documents</kwd><kwd>artificial neural networks</kwd><kwd>large language model</kwd><kwd>Internet resources</kwd><kwd>artificial intelligence methods</kwd><kwd>data enrichment</kwd><kwd>web scraping</kwd></kwd-group><funding-group><funding-statement xml:lang="ru">работа поддержана Государственным заданием на 2025 г. № FFZF-2025-0003.</funding-statement><funding-statement xml:lang="en">The work was supported by the State Assignment for 2025 No. FFZF-2025-0003.</funding-statement></funding-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">[Электронный ресурс]: &lt;https://www.gazeta.ru/tech/news/2024/03/06/22489231.shtml&gt;. (дата обращения: 23.05.2025)</mixed-citation><mixed-citation xml:lang="en">https://www.gazeta.ru/tech/news/2024/03/06/22489231.shtml. (in Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">[Электронный ресурс]: &lt;https://blog.google/products/search/google-search-update-march-2024/&gt;. (дата обращения: 23.05.2025)</mixed-citation><mixed-citation xml:lang="en">https://blog.google/products/search/google-search-update-march-2024/.</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Tao F. et al. Doc2cube: Allocating documents to text cube without labeled data // 2018 IEEE Intern. Conf. on Data Mining (ICDM). IEEE, 2018. P. 1260–1265.</mixed-citation><mixed-citation xml:lang="en">Tao F. et al. 2018 IEEE International Conference on Data Mining (ICDM), 2018, рр. 1260–1265.</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Agichtein E., Gravano L. Snowball: Extracting relations from large plain-text collections // Proc. of the 5th ACM Conf. on Digital libraries. 2000. P. 85–94.</mixed-citation><mixed-citation xml:lang="en">Agichtein E., Gravano L. Proceedings of the 5th ACM Conference on Digital libraries, 2000, рр. 85–94.</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Kuleshov S., Zaytseva A., Aksenov A. Natural Language Search and Associative-Ontology Matching Algorithms Based on Graph Representation of Texts // Intelligent Systems Applications in Software Engineering. Advances in Intelligent Systems and Computing. Springer, Cham, 2019. Vol. 1046. Р. 285–294. DOI 10.1007/978-3-030-30329-7_26.</mixed-citation><mixed-citation xml:lang="en">Kuleshov S., Zaytseva A., Aksenov A. Intelligent Systems Applications in Software Engineering. Advances in Intelligent Systems and Computing, Springer, Cham, 2019, vol. 1046, рр. 285–294, DOI 10.1007/978-3-030-30329-7_26.</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Отчет о НИР „Разработка теоретических и технологических основ анализа неструктурированных данных и многомодального взаимодействия пользователей, интеллектуальной поддержки целенаправленного коллективного поведения участников в человеко-машинных сообществах (промежуточный, 2 этап)“, шифр FFZF-2022- 0005, номер госрегистрации 224021200089-4.</mixed-citation><mixed-citation xml:lang="en">Razrabotka teoreticheskikh i tekhnologicheskikh osnov analiza nestrukturirovannykh dannykh i mnogomodal’nogo vzaimodeystviya pol’zovateley, intellektual’noy podderzhki tselenapravlennogo kollektivnogo povedeniya uchastnikov v cheloveko-mashinnykh soobshchestvakh (promezhutochnyy, 2 etap) (Development of Theoretical and Technological Foundations for the Analysis of Unstructured Data and Multimodal User Interaction, Intelligent Support for Targeted Collective Behavior of Participants in Human-Machine Communities (Intermediate, Stage 2)), Research Report, Code FFZF-2022-0005, State Registration Number 224021200089-4. (in Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Кулешов С. В. Технологии управления потоками неструктурированных данных при анализе макросистем // Матер. XV Всерос. науч.-практ. конф. „Методологические проблемы управления макросистемами“. Апатиты, 01–04 апреля 2024.</mixed-citation><mixed-citation xml:lang="en">Kuleshov S.V. Metodologicheskiye problemy upravleniya makrosistemami (Methodological Problems of Macrosystems Management), Proceedings of the XV All-Russian Scientific and Practical Conference, Apatity, April 1–4, 2024. (in Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Кулешов С. В., Зайцева А. А. Феноменологическое описание процессов сбора и обработки интернет-документов // Изв. вузов. Приборостроение. 2023. Т. 66, № 12. С. 1002–1010. DOI: 10.17586/0021-3454-2023-66-12-1002-1010.</mixed-citation><mixed-citation xml:lang="en">Kuleshov S.V., Zaitseva A.A. Journal of Instrument Engineering, 2023, no. 12(66), pp. 1002–1010, DOI: 10.17586/0021-3454-2023-66-12-1002-1010. (in Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">Кулешов С. В., Зайцева А. А., Аксенов А. Ю. Формирование ядра документов в системах интернет-мониторинга в условиях ресурсных ограничений // Изв. вузов. Приборостроение. 2022. Т. 65, № 11. С. 826–832. DOI: 10.17586/0021-3454-2022-65-11-826-832.</mixed-citation><mixed-citation xml:lang="en">Kuleshov S.V., Zaitseva A.A., Aksenov A.Yu. Journal of Instrument Engineering, 2022, no. 11(65), pp. 826–832, DOI: 10.17586/0021-3454-2022-65-11-826-832. (in Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit10"><label>10</label><citation-alternatives><mixed-citation xml:lang="ru">Александров В. В., Кулешов С. В. Аналитический мониторинг Internet контента. Инфологический подход // Качество. Инновации. Образование. 2008. № 3(34). С. 68–70.</mixed-citation><mixed-citation xml:lang="en">Aleksandrov V.V., Kuleshov S.V. Kachestvo. Innovatsii. Obrazovaniye, 2008, no. 3(34), pp. 68–70. (in Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit11"><label>11</label><citation-alternatives><mixed-citation xml:lang="ru">Тришин И. Г. База данных в исследовании истории усадеб Подмосковья: наполнение, обогащение и аналитика // Исторический журнал: научные исследования. 2023. № 3. С. 29–39. DOI 10.7256/2454-0609.2023.3.39859.</mixed-citation><mixed-citation xml:lang="en">Trishin I.G. Istoricheskiy zhurnal: nauchnyye issledovaniya, 2023, no. 3, pp. 29–39, DOI 10.7256/2454-0609.2023.3.39859. (in Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit12"><label>12</label><citation-alternatives><mixed-citation xml:lang="ru">Апанович З. В., Марчук А. Г. Проблемы использования данных из облака LOD для обогащения контента научных баз данных и знаний // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Тр. XV Всерос. науч. конф. RCDL’2013. Ярославль, 14–17 октября 2013 года. Ярославль: ЯрГУ им. П. Г. Демидова, 2013. С. 300–305.</mixed-citation><mixed-citation xml:lang="en">Apanovich Z.V., Marchuk A.G. Elektronnyye biblioteki: perspektivnyye metody i tekhnologii, elektronnyye kollektsii (Electronic Libraries: Promising Methods and Technologies, Electronic Collections), Proceedings of the XV All-Russian Scientific Conference RCDL’2013, Yaroslavl, October 14–17, 2013, рр. 300–305. (in Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit13"><label>13</label><citation-alternatives><mixed-citation xml:lang="ru">Chen H. et al. Hierarchy-aware label semantics matching network for hierarchical text classification // Proc. of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Intern. Joint Conf. on Natural Language Processing (Vol. 1. Long Papers). 2021. P. 4370–4379.</mixed-citation><mixed-citation xml:lang="en">Chen H. et al. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (vol. 1. Long Papers), 2021, рр. 4370–4379.</mixed-citation></citation-alternatives></ref><ref id="cit14"><label>14</label><citation-alternatives><mixed-citation xml:lang="ru">Dumais S., Chen H. Hierarchical classification of web content // Proc. of the 23rd Ann. Intern. ACM SIGIR Conf. on Research and Development in Information Retrieval. 2000. P. 256–263.</mixed-citation><mixed-citation xml:lang="en">Dumais S., Chen H. Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2000, рр. 256–263.</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
