Метод классификации текстов без применения обучения
https://doi.org/10.17586/0021-3454-2026-69-1-90-94
Аннотация
Предложен новый подход к классификации текстов без применения методов машинного обучения и необходимости иметь обучающую выборку. Основу метода составляет расстояние Дамерау — Левенштейна, являющееся минимальным количеством операций редактирования, необходимых для преобразования одной строки в другую и учета семантической близости слов, взвешивания операций редактирования и порядка важности слов. Приведены основные метрики оценивания качества классификатора текстов и результаты апробации предложенного метода в соответствии с метриками.
Об авторах
Т. М. ТатарниковаРоссия
Татьяна Михайловна Татарникова — д-р техн. наук, профессор; Институт информационных технологий и программирования; директор
Санкт-Петербург
Д. Р. Миляев
Россия
Дмитрий Романович Миляев— аспирант; кафедра информационных систем
Санкт-Петербург
Список литературы
1. Дудихин В. В., Кондрашов П. Е. Методология использования больших языковых моделей для решения задач государственного и муниципального управления по интеллектуальному реферированию и автоматическому формированию текстового контента // Государственное управление. Электронный вестник. 2024. № 105. С. 169–179. DOI: 10.55959/MSU2070-1381-105-2024-169-179.
2. Houlsby N., Giurgiu A., Jastrzebski S., Morrone B. et al. Parameter-efficient transfer learning for NLP // Proc. 36th Intern. Conf. on Machine Learning. 2019. Vol. 97. P. 2790–2799.
3. Кузнецов А. В. Цифровая история и искусственный интеллект: перспективы и риски применения больших языковых моделей // Новые информационные технологии в образовании и науке. 2022. № 5. С. 53–57. DOI: 10.17853/2587-6910-2022-05-53-57.
4. Sovetov B.Ya., Tatarnikova T.M., Yashin A.I. Use of technology textmining for identifying hidden threats in communications distributed by social networks // Изв. СПбГЭТУ ЛЭТИ. 2019. № 4. С. 26–32.
5. Батура Т. В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. Т. 30, № 1. C. 85–99. DOI: 10.15827/0236-235X.030.1.085-099.
6. Белов С. Д., Зрелова Д. П., Зрелов П. В., Кореньков В. В. Обзор методов автоматической обработки текстов на естественном языке // Системный анализ в науке и образовании: сетевое научное издание. 2020. № 3. C. 8–22. [Электронный ресурс]: http://sanse.ru/download/401, 21.01.2026.
7. Татарникова Т. М., Мокрецов Н. С. Метод дистилляции знаний для языковых моделей на основе выборочного вмешательства в обучение // Программные продукты и системы. 2025. № 2. С. 361–365. DOI: 10.15827/0236-235X.150.361-365
8. Максютин П. А., Шульженко С. Н. Обзор методов классификации текстов с помощью машинного обучения // Инженерный вестник Дона. 2022. № 12. [Электронный ресурс]: ivdon.ru/ru/magazine/archive/n12y2022/8043, 19.01.2026.
9. Khurana A., Subramonyam H., Chilana P. K. Why and when LLMbased assistants can go wrong: investigating the effectiveness of prompt-based interactions for software help-seeking // Proc. of the 29th Intern. Conf. on Intelligent User Interfaces. 2024. P. 288–303. DOI: 10.1145/3640543.3645200.
10. Тарасов Д. В.Романов Н. А. Процедура машинного обучения в задаче морфологической разметки текста и определения частей речи в флективных языках // Изв. вузов. Поволжский регион. 2017. № 1 (41). С. 56–72. DOI: 10.21685/2072-3059–2017-1-5.
11. Lane H., Hapke H., Howard C. Natural Language Processing in Action. Manning Publications Co, 2019. 544 p.
Рецензия
Для цитирования:
Татарникова Т.М., Миляев Д.Р. Метод классификации текстов без применения обучения. Известия высших учебных заведений. Приборостроение. 2026;69(1):90-94. https://doi.org/10.17586/0021-3454-2026-69-1-90-94
For citation:
Tatarnikova T.M., Milyaev D.R. Method of text classification without the use of training. Journal of Instrument Engineering. 2026;69(1):90-94. (In Russ.) https://doi.org/10.17586/0021-3454-2026-69-1-90-94
JATS XML














