ISSN 0021-3454 (печатная версия)
ISSN 2500-0381 (онлайн версия)
Меню

2
Содержание
том 63 / Февраль, 2020
СТАТЬЯ

DOI 10.17586/0021-3454-2019-62-11-976-981

УДК 004.89

Алгоритм автоматического выделения коллокаций из текста

Ненаусников К. В.
СПИИРАН, лаборатория автоматизации научных исследований ; мл. науч. сотрудник


Кулешов С. В.
СПИИРАН, лаборатория автоматизации научных исследований;


Аннотация. Для повышения точности системы ассоциативного поиска предложен алгоритм автоматического выделения коллокаций из корпуса текстов на естественном языке. Разработанный алгоритм предназначен для аддитивной оценки биграмм (пар элементов) текста на основе статистического подхода и выделения наибо-лее релевантных биграмм с использованием распределения Ципфа. Выполнен анализ методов выделения коллокаций из случайного корпуса текстов, размещенных в сети Интернет, на основе таких ассоциативных мер, как частота вхождения биграмм в текст, t-тест, MI и c2, с использованием грамматического фильтра, с удалением стоп-слов и последующей оценкой указанных мер. Применение метода аддитивного оценивания при построении распределения Ципфа позволяет определить область корректных коллокаций, что приводит к уменьшению количества ошибок в полученных списках коллокаций.
Ключевые слова: семантический анализ, понятие, коллокация, словарь, ассоциативная мера, лингвистический шаблон, MI, t-тест, c2, ассоциативный поиск, распределение Ципфа

Список литературы:
  1. Chen W. T., Bonial C., Palmer M. English light verb construction identification using lexical knowledge // Proc. of the 29th AAAI Conf. on Artificial Intelligence, Austin, TX, USA. 2015. P. 2368—2374.
  2. Kolesnikova O., Gelbukh A. Binary and Multi-class classification of lexical function in Spanish verb-noun collocations // Lecture Notes in Computer Science Ed.: M. Gonzalez-Mendoza, F. Castro, S. Miranda-Jimenez. Mexico, 2018. P. 3—14. DOI:10.13140/RG.2.1.2610.0242.
  3. Bobkova A. The use of collocations for English nouns disambiguation // Thought Elaboration: Linguistics, Literature, Media Expression / Ed.: D. Satkauskaite. Vilnius: Vilnius Univ., 2017. P. 64—78.
  4. Granger S. Formulaic sequences in learner corpora: Collocations and lexical bundles // Understanding Formulaic Language: A Second Language Acquisition Perspective / Ed.: A. Siyanova-Chanturia, A. Pellicer-Sanchez. N. Y.: Routledge, 2018. P. 228—247. DOI:10.4324/9781315206615.
  5. Gyllstad H., Wolter B. Collocational processing in light of the phraseological continuum model: does semantic transparency matter? // Language Learning. 2017. Vol. 45, iss. 3. P. 296—323. DOI:10.1111/lang.12143.
  6. Лескина С. В., Шаранова В. Б. Структурная и семантическая соотнесенность коллокаций и фразеологических единиц в русском и в английском языках // Вестн. Южно-Уральского гос. ун-та. Сер. Лингвистика. 2014. № 1. С. 22—28.
  7. Verma R., Vuppuluri V., Nguyen A., Mukherjee A., Mammar G., Baki S., Armstrong R. Mining the Web for collocations: IR models of term associations // Lecture Notes in Computer Science. Ed.: A. Gelbukh. Springer Verlag, 2018. P. 177—194. DOI:10.1007/978-3-319-75477-2_11.
  8. Влавацкая М. В. Комбинаторная лексикология: функционально-семантическая классификация коллокаций // Филологические науки. Вопросы теории и практики. 2015. № 11, ч. 1. С. 56—60.
  9. Ягунова Е. В., Пивоварова Л. М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Науч.-техн. информация. Сер. 2. Информационные процессы и системы. 2010. № 6. С. 30—40.
  10. Захаров В. П., Хохлова М. В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии. 2010. № 9 (16). С. 137—143.
  11. Liu X., Huang D., Yin Z., Ren F. Recognition of collocation frames from sentences // IEICE Transact. on Information and Systems. 2019. P. 620-627. DOI: 10.1587/transinf.2018EDP7255.
  12. Петров А. С., Шульга Т. Э. Математическая модель русскоязычного текстового документа для решения задачи автоматического извлечения терминов из текста // Вестн. Воронеж. гос. ун-та. Сер. Системный анализ и информационные технологии. 2017. № 3. С. 195—203.
  13. Кулешов С. В., Зайцева А. А., Марков В. С. Ассоциативно-онтологический подход к обработке текстов на естественном языке // Интеллектуальные технологии на транспорте. 2015. № 4. С. 40—45.
  14. Найханова Л. В. Технология создания методов автоматического построения онтологии с применением генетического и автоматного программирования: Монография. Улан-Удэ: Изд-во БНЦ СО РАН, 2008. 244 с.