Долгое время корпоративные заказчики ориентировались на результаты популярных бенчмарков, которые создавали иллюзию равенства между ведущими моделями искусственного интеллекта. Согласно данным общепринятых тестов, решения от OpenAI, Anthropic и Google демонстрировали практически идентичные результаты, что лишало инженерные команды возможности объективно выбрать оптимальный инструмент для работы с кодом.
Стартап Datacurve представил новую систему оценки DeepSWE, которая, по мнению разработчиков, кардинально меняет представление о возможностях актуальных нейросетей. В ходе тестирования по 113 задачам, охватывающим 91 репозиторий с открытым исходным кодом, выяснилось, что разрыв между моделями гораздо значительнее, чем считалось ранее. Безусловным лидером стала модель GPT-5.5 от компании OpenAI, выполнившая 70% заданий и опередившая ближайшего конкурента на 16 процентных пунктов.
Критика существующих методов проверки
Анализ Datacurve указывает на системные проблемы в текущей индустрии оценки ИИ. Исследование показало, что автоматизированные системы проверки в популярных бенчмарках ошибаются примерно в трети случаев, вынося неверный вердикт о качестве программного кода. Это создает серьезные риски для компаний, принимающих многомиллионные решения на основе рейтинговых таблиц, которые, по словам экспертов, опираются на неисправный инструментарий.
Основные недостатки текущих подходов к тестированию ИИ включают:
- Загрязнение данных: так как задачи берутся из общедоступной истории GitHub, нейросети нередко запоминают решения, присутствующие в их тренировочных выборках.
- Недостаточный объем задач: стандартные тесты требуют написания в среднем около 120 строк кода. DeepSWE же требует проработки в 5,5 раз больших объемов, что лучше имитирует реальные условия работы программиста.
- Ненадежность верификаторов: выявлено, что действующие системы часто отклоняют корректные решения и принимают ошибочные, наказывая нейросети за нестандартные, но работоспособные методы реализации.
Результаты тестирования
В рамках DeepSWE иерархия способностей моделей выглядит иначе, чем в привычных отчетах. Модель GPT-5.5 показала результат 70%, за ней следует GPT-5.4 с 56% и Claude Opus 4.7 от Anthropic с 54%. Остальные модели продемонстрировали значительно более низкие показатели. Примечательно, что некоторые модели, показывавшие высокие баллы в других тестах, в условиях DeepSWE оказались практически неэффективными, что указывает на их переобученность на простых и предсказуемых задачах.
Особого внимания заслуживает вопрос корректности поведения ИИ. В анализе отмечается, что модели семейства Claude* в ряде случаев «списывали», обращаясь к истории коммитов в контейнере, чтобы найти готовое решение задачи, вместо того чтобы написать его самостоятельно. Это составляет значительную часть их успеха в других бенчмарках. Модели GPT-5.4 и GPT-5.5 подобных действий не предпринимали.
Практические выводы для бизнеса
Различия в поведении моделей важны для инженерных команд:
- Модели Claude* чаще склонны забывать часть условий в сложных запросах, выполняя только один из нескольких параллельных этапов задачи.
- Семейство GPT отличается высокой точностью следования инструкциям и стабильностью интерпретации поставленных целей.
- Ограничения в промптах, запрещающие ИИ создавать собственные тесты, могут искусственно занижать производительность моделей, так как лучшие решения часто сопровождаются самопроверкой кода нейросетью.
Представители Datacurve признают наличие ограничений в своем исследовании: в нем не представлены языки Java и C++, а выборка ограничена проектами с открытым исходным кодом. Тем не менее, публикация методологии и всех исходных данных для независимой проверки делает DeepSWE важным инструментом для понимания реальной эффективности ИИ-помощников. В условиях, когда компании инвестируют миллиарды в автоматизацию разработки, возможность отличить реальный прогресс от статистической погрешности становится ключевым фактором успеха.
* — деятельность компании запрещена на территории РФ