АНАЛИЗ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК ИСКУССТВЕННО СГЕНЕРИРОВАННЫХ ТЕКСТОВ Известия высших учебных заведений Приборостроение

DOI 10.17586/0021-3454-2024-67-11-958-968
УДК 004.912: 004.822

АНАЛИЗ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК ИСКУССТВЕННО СГЕНЕРИРОВАННЫХ ТЕКСТОВ

Кулешов С. В.
СПИИРАН, лаборатория автоматизации научных исследований;

Зайцева А. А.
СПИИРАН, лаборатория автоматизации научных исследований; ст. научный сотрудник

Аксенов А. Ю.
СПбФИЦ РАН, СПИИРАН, лаборатория автоматизации научных исследований ; ст. научный сотрудник

Читать статью полностью

Ссылка для цитирования : Кулешов С. В., Зайцева А. А., Аксенов А. Ю. Анализ статистических характеристик искусственно сгенерированных текстов // Изв. вузов. Приборостроение. 2024. Т. 67, № 11. С. 958–968. DOI: 10.17586/0021-3454-2024-67-11-958-968.

Аннотация. Рассматривается новый тренд — формирование контента с применением инструментов и технологий искусственного интеллекта. Активное внедрение технологий искусственного интеллекта для генерации данных приводит к увеличению доли искусственно сгенерированных данных, которые необходимо выявлять в автоматическом режиме для предотвращения ошибок (недостоверности, введения в заблуждение). Предложены подходы к идентификации текстовых данных, созданных при помощи нейросетевых технологий, включающие эвристические правила, основанные на критерии зависимости объема реферата от порога реферирования, что позволяет проводить автоматическую оценку текстовых документов в мониторинговых и поисковых системах при обработке больших объемов неструктурированных данных. Полученные результаты закладывают технологическую базу для реализации широкого спектра практических решений по обеспечению интеллектуальной поддержки коллективного поведения участников в человекомашинных сообществах за счет разработки теоретических и технологических основ обработки неструктурированных данных.

Ключевые слова: интернет-документы, искусственные нейронные сети, большая языковая модель, интернет- ресурсы, методы искусственного интеллекта, генерация данных

Благодарность: работа выполнена при поддержке гос. заданием на 2024 г. № FFZF-2022-0005.

Список литературы:

YouTube обяжет маркировать контент, созданный нейросетями [Электронный ресурс]: https://www.fontanka. ru/2023/11/14/72913286/, 27.06.2024.
Fang X., Che Sh., Mao M., Zhang H., Zhao M., Zhao X. Bias of AI-Generated Content: An Examination of News Produced by Large Language Models [Электронный ресурс]: https://papers.ssrn.com/sol3/papers.cfm?abstract_ id=4574226, 27.06.2024.
Chen Ch., Fu J., Lyu L. A Pathway Towards Responsible AI Generated Content. 2023. DOI: 10.48550/arXiv. 2303.01325.
Wahle J.Ph., Ruas T., Mohammad S.M., Meuschke N., Gipp B. AI Usage Cards: Responsibly Reporting AI-Generated Content // Proc. of ACM/IEEE Joint Conf. on Digital Libraries (JCDL 2023), June 2023, Mexico, Santa Fe. 2023. P. 282–284.
Huang X., Li P., Du H., Kang J., Niyato D., Kim D.I., Wu Y. Federated Learning-Empowered AI-Generated Content in Wireless Networks. 2023. DOI: 10.48550/arXiv.2307.07146.
Gragnaniello D., Marra F., Verdoliva L. Detection of AI-Generated Synthetic Faces. Handbook of Digital Face Manipulation and Detection // Advances in Computer Vision and Pattern Recognition. 2022. P. 191–212.
Xi Z., Wenmin H., Kangkang W., Weiqi L., Peijia Zh. AI-Generated Image Detection using a Cross-Attention Enhanced Dual-Stream Network // Proc. of Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Nov. 2023, Taiwan, Taipei. P. 1463–1470.
Weber-Wulff D., Anohina-Naumeca A., Bjelobaba S., Foltýnek T., Guerrero-Dib J., Popoola O., Šigut P., Waddington L. Testing of Detection Tools for AI-Generated Text. 2023. DOI: 10.48550/arXiv.2306.15666.
Joo-Wha H., Fischer K., Ha Y., Zeng Y. Human, I wrote a song for you: An experiment testing the influence of machines’ attributes on the AI-composed music evaluation//Computers in Human Behavior. 2022. Vol. 131. 107239.
Cao Y. Li S., Liu Y., Yan Zh., Dai Y., Yu Ph., Sun L. A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT. 2023. DOI: 10.48550/arXiv.2303.04226.
Wu J., Wensheng G., Zefeng Ch., Shicheng W., Hong L. AI-Generated Content (AIGC): A Survey. 2023. DOI: 10.48550/ arXiv.2304.06632.
Ruchika L., Priyanka Bh., Neha V., Anshika J. AI-Generated Text Detection: A Review // Intern. Journal of Creative Research Thoughts (IJCRT). 2023. Vol. 11(10). P. d784–d789.
Zhengyuan J., Jinghuai Zh., Neil Zh.G. Evading Watermark based Detection of AI-Generated Content // Proc. of the ACM SIGSAC Conf. on Computer and Communications Security (CCS ‘23), Nov. 2023, Copenhagen. 2023. P. 1168–1181.
Elkhatat A., Elsaid Kh., Almeer S. Evaluating the efficacy of AI content detection tools in differentiating between human and AI-generated text // Intern. Journal for Educational Integrity. 2023. Vol. 19. P. 17.
Elkhatat A. M. Evaluating the authenticity of ChatGPT responses: a study on text-matching capabilities // Intern. Journal for Educational Integrity. 2023. Vol. 19. P. 15. DOI: 10.1007/s40979-023-00137-0.
Otterbacher J. Why technical solutions for detecting AI-generated content in research and education are insufficient// Patterns. 2023. Vol. 4(7). P. 100796.
Pengyu W., Linyang K. R., Botian J., Dong Zh., Xipeng Q. SeqXGPT: Sentence-Level AI-Generated Text Detection // Proc. of the Conf. on Empirical Methods in Natural Language Processin, Dec. 2023. Singapore. 2023. P. 1144–1156.
Price G. Sakellarios M. The Effectiveness of Free Software for Detecting AI-Generated Writing // Intern. Journal of Teaching, Learning and Education. 2023. Vol. 2. P. 31–38.
Qu Y., Liu P., Song W., Liu L., Cheng M. A Text Generation and Prediction System: Pre-training on New Corpora Using BERT and GPT-2 // IEEE 10th Int. Conf. on Electronics Information and Emergency Communication (ICEIEC), July 2020, China, Beijing. 2020. P. 323–326.
Chen W., Su Y., Yan X., Wang W. Y. KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation. [Электронный ресурс]: https://arxiv.org/abs/2010.02307, 27.06.2024.
GPT для чайников: от токенизации до файнтюнинга [Электронный ресурс]: https://habr.com/ru/articles/599673/, 27.06.2024.
Ackley D., Hinton G., Sejnowski T. A learning algorithm for Boltzman nmachines//Cognitive Science. 1985. Vol. 9. N 1. P. 147–169.
OpenAI Codex [Электронный ресурс]: https://openai.com/blog/openai-codex, 27.06.2024.
GPT-4 Technical Report. OpenAI [Электронный ресурс]: https://cdn.openai.com/papers/gpt-4.pdf, 27.06.2024.
GPTZero [Электронный ресурс]: https://gptzero.me/technology, 27.06.2024.
Chaka C. Detecting AI content in responses generated by ChatGPT, YouChat, and Chatsonic: The case of five AI content detection tools//Journal of Applied Learning and Teaching. 2023. Vol. 6(2). DOI: 10.37074/jalt.2023.6.2.12.
Yang X., Cheng W., Petzold L., Wang W.Y., Chen H. DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text//ArXiv, abs/2305.17359. 2024.
Кулешов С. В., Зайцева А. А., Марков С. В. Ассоциативно-онтологический подход к обработке текстов на есте- ственном языке // Интеллектуальные технологии на транспорте. 2015. № 4. С. 40–45.
Jiang A. Q. et al. Mistral 7B [Электронный ресурс]: https://arxiv.org/abs/2310.06825, 27.06.2020.

Партнеры

АНАЛИЗ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК ИСКУССТВЕННО СГЕНЕРИРОВАННЫХ ТЕКСТОВ