DOI 10.17586/0021-3454-2024-67-11-958-968
УДК 004.912: 004.822
АНАЛИЗ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК ИСКУССТВЕННО СГЕНЕРИРОВАННЫХ ТЕКСТОВ
СПИИРАН, лаборатория автоматизации научных исследований;
Зайцева А. А.
СПИИРАН, лаборатория автоматизации научных исследований; ст. научный сотрудник
Аксенов А. Ю.
СПбФИЦ РАН, СПИИРАН, лаборатория автоматизации научных исследований ; ст. научный сотрудник
Ссылка для цитирования : Кулешов С. В., Зайцева А. А., Аксенов А. Ю. Анализ статистических характеристик искусственно сгенерированных текстов // Изв. вузов. Приборостроение. 2024. Т. 67, № 11. С. 958–968. DOI: 10.17586/0021-3454-2024-67-11-958-968.
Аннотация. Рассматривается новый тренд — формирование контента с применением инструментов и технологий искусственного интеллекта. Активное внедрение технологий искусственного интеллекта для генерации данных приводит к увеличению доли искусственно сгенерированных данных, которые необходимо выявлять в автоматическом режиме для предотвращения ошибок (недостоверности, введения в заблуждение). Предложены подходы к идентификации текстовых данных, созданных при помощи нейросетевых технологий, включающие эвристические правила, основанные на критерии зависимости объема реферата от порога реферирования, что позволяет проводить автоматическую оценку текстовых документов в мониторинговых и поисковых системах при обработке больших объемов неструктурированных данных. Полученные результаты закладывают технологическую базу для реализации широкого спектра практических решений по обеспечению интеллектуальной поддержки коллективного поведения участников в человекомашинных сообществах за счет разработки теоретических и технологических основ обработки неструктурированных данных.
Аннотация. Рассматривается новый тренд — формирование контента с применением инструментов и технологий искусственного интеллекта. Активное внедрение технологий искусственного интеллекта для генерации данных приводит к увеличению доли искусственно сгенерированных данных, которые необходимо выявлять в автоматическом режиме для предотвращения ошибок (недостоверности, введения в заблуждение). Предложены подходы к идентификации текстовых данных, созданных при помощи нейросетевых технологий, включающие эвристические правила, основанные на критерии зависимости объема реферата от порога реферирования, что позволяет проводить автоматическую оценку текстовых документов в мониторинговых и поисковых системах при обработке больших объемов неструктурированных данных. Полученные результаты закладывают технологическую базу для реализации широкого спектра практических решений по обеспечению интеллектуальной поддержки коллективного поведения участников в человекомашинных сообществах за счет разработки теоретических и технологических основ обработки неструктурированных данных.
Ключевые слова: интернет-документы, искусственные нейронные сети, большая языковая модель, интернет- ресурсы, методы искусственного интеллекта, генерация данных
Благодарность: работа выполнена при поддержке гос. заданием на 2024 г. № FFZF-2022-0005.
Список литературы:
Благодарность: работа выполнена при поддержке гос. заданием на 2024 г. № FFZF-2022-0005.
Список литературы:
- YouTube обяжет маркировать контент, созданный нейросетями [Электронный ресурс]: https://www.fontanka. ru/2023/11/14/72913286/, 27.06.2024.
- Fang X., Che Sh., Mao M., Zhang H., Zhao M., Zhao X. Bias of AI-Generated Content: An Examination of News Produced by Large Language Models [Электронный ресурс]: https://papers.ssrn.com/sol3/papers.cfm?abstract_ id=4574226, 27.06.2024.
- Chen Ch., Fu J., Lyu L. A Pathway Towards Responsible AI Generated Content. 2023. DOI: 10.48550/arXiv. 2303.01325.
- Wahle J.Ph., Ruas T., Mohammad S.M., Meuschke N., Gipp B. AI Usage Cards: Responsibly Reporting AI-Generated Content // Proc. of ACM/IEEE Joint Conf. on Digital Libraries (JCDL 2023), June 2023, Mexico, Santa Fe. 2023. P. 282–284.
- Huang X., Li P., Du H., Kang J., Niyato D., Kim D.I., Wu Y. Federated Learning-Empowered AI-Generated Content in Wireless Networks. 2023. DOI: 10.48550/arXiv.2307.07146.
- Gragnaniello D., Marra F., Verdoliva L. Detection of AI-Generated Synthetic Faces. Handbook of Digital Face Manipulation and Detection // Advances in Computer Vision and Pattern Recognition. 2022. P. 191–212.
- Xi Z., Wenmin H., Kangkang W., Weiqi L., Peijia Zh. AI-Generated Image Detection using a Cross-Attention Enhanced Dual-Stream Network // Proc. of Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Nov. 2023, Taiwan, Taipei. P. 1463–1470.
- Weber-Wulff D., Anohina-Naumeca A., Bjelobaba S., Foltýnek T., Guerrero-Dib J., Popoola O., Šigut P., Waddington L. Testing of Detection Tools for AI-Generated Text. 2023. DOI: 10.48550/arXiv.2306.15666.
- Joo-Wha H., Fischer K., Ha Y., Zeng Y. Human, I wrote a song for you: An experiment testing the influence of machines’ attributes on the AI-composed music evaluation//Computers in Human Behavior. 2022. Vol. 131. 107239.
- Cao Y. Li S., Liu Y., Yan Zh., Dai Y., Yu Ph., Sun L. A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT. 2023. DOI: 10.48550/arXiv.2303.04226.
- Wu J., Wensheng G., Zefeng Ch., Shicheng W., Hong L. AI-Generated Content (AIGC): A Survey. 2023. DOI: 10.48550/ arXiv.2304.06632.
- Ruchika L., Priyanka Bh., Neha V., Anshika J. AI-Generated Text Detection: A Review // Intern. Journal of Creative Research Thoughts (IJCRT). 2023. Vol. 11(10). P. d784–d789.
- Zhengyuan J., Jinghuai Zh., Neil Zh.G. Evading Watermark based Detection of AI-Generated Content // Proc. of the ACM SIGSAC Conf. on Computer and Communications Security (CCS ‘23), Nov. 2023, Copenhagen. 2023. P. 1168–1181.
- Elkhatat A., Elsaid Kh., Almeer S. Evaluating the efficacy of AI content detection tools in differentiating between human and AI-generated text // Intern. Journal for Educational Integrity. 2023. Vol. 19. P. 17.
- Elkhatat A. M. Evaluating the authenticity of ChatGPT responses: a study on text-matching capabilities // Intern. Journal for Educational Integrity. 2023. Vol. 19. P. 15. DOI: 10.1007/s40979-023-00137-0.
- Otterbacher J. Why technical solutions for detecting AI-generated content in research and education are insufficient// Patterns. 2023. Vol. 4(7). P. 100796.
- Pengyu W., Linyang K. R., Botian J., Dong Zh., Xipeng Q. SeqXGPT: Sentence-Level AI-Generated Text Detection // Proc. of the Conf. on Empirical Methods in Natural Language Processin, Dec. 2023. Singapore. 2023. P. 1144–1156.
- Price G. Sakellarios M. The Effectiveness of Free Software for Detecting AI-Generated Writing // Intern. Journal of Teaching, Learning and Education. 2023. Vol. 2. P. 31–38.
- Qu Y., Liu P., Song W., Liu L., Cheng M. A Text Generation and Prediction System: Pre-training on New Corpora Using BERT and GPT-2 // IEEE 10th Int. Conf. on Electronics Information and Emergency Communication (ICEIEC), July 2020, China, Beijing. 2020. P. 323–326.
- Chen W., Su Y., Yan X., Wang W. Y. KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation. [Электронный ресурс]: https://arxiv.org/abs/2010.02307, 27.06.2024.
- GPT для чайников: от токенизации до файнтюнинга [Электронный ресурс]: https://habr.com/ru/articles/599673/, 27.06.2024.
- Ackley D., Hinton G., Sejnowski T. A learning algorithm for Boltzman nmachines//Cognitive Science. 1985. Vol. 9. N 1. P. 147–169.
- OpenAI Codex [Электронный ресурс]: https://openai.com/blog/openai-codex, 27.06.2024.
- GPT-4 Technical Report. OpenAI [Электронный ресурс]: https://cdn.openai.com/papers/gpt-4.pdf, 27.06.2024.
- GPTZero [Электронный ресурс]: https://gptzero.me/technology, 27.06.2024.
- Chaka C. Detecting AI content in responses generated by ChatGPT, YouChat, and Chatsonic: The case of five AI content detection tools//Journal of Applied Learning and Teaching. 2023. Vol. 6(2). DOI: 10.37074/jalt.2023.6.2.12.
- Yang X., Cheng W., Petzold L., Wang W.Y., Chen H. DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text//ArXiv, abs/2305.17359. 2024.
- Кулешов С. В., Зайцева А. А., Марков С. В. Ассоциативно-онтологический подход к обработке текстов на есте- ственном языке // Интеллектуальные технологии на транспорте. 2015. № 4. С. 40–45.
- Jiang A. Q. et al. Mistral 7B [Электронный ресурс]: https://arxiv.org/abs/2310.06825, 27.06.2020.