Исследование OpenAI показало ограничения ИИ в создании программного кода

Shuterstock
Источник фото: Shuterstock

Исследование, проведенное командой OpenAI, привлекло внимание общественности к возможностям искусственного интеллекта в создании программного кода.

Этот проект ставил перед собой амбициозную цель — выяснить, способен ли ИИ заменить человеческих программистов. Однако выводы оказались далеки от оптимистичных ожиданий, сообщает vkurse.kz со ссылкой на arXiv.

В ходе экспериментов специалисты OpenAI, отвечающие за создание чат-бота ChatGPT, подвергли три различные модели ИИ испытанию, которое включало как написание программного кода, так и исправление уже готовых программ. Несмотря на сложность задач, ИИ не смог продемонстрировать уровень, который позволил бы ему заменить даже новичков в области программирования. Результаты показали, что возможности ИИ на данный момент не соответствуют требованиям, предъявляемым к программированию.

Для исследования были использованы три модели различной сложности. В числе них — базовая версия o1, более продвинутая GPT-4o, а также Claude 3.5 Sonnet, разработанная компанией Anthropic. Оценить их способности к решению реальных задач помог бенчмарк SWE-Lancer, включающий 1400 заданий, взятых с популярной платформы фрилансеров Upwork. Важным условием эксперимента стало исключение доступа к интернету для моделей, что означало невозможность получения готовых решений или «списывания» информации с внешних источников.

Во время испытаний, как заметили инженеры, искусственный интеллект не всегда мог корректно интерпретировать контекст задач, что нередко приводило к ошибочным и неполным решениям. Несмотря на то, что Claude 3.5 Sonnet продемонстрировала относительно лучшие результаты среди прочих, большинство ее ответов оставались неверными. В итоге эксперты пришли к выводу, что текущий уровень технологий ИИ еще не позволяет ему заменить специалистов в сфере информационных технологий.


Сегодня в ТОПе