Глубокий анализ

Галлюцинации LLM представляют
серьезные риски для AI код-ревью

Инструменты AI код-ревью генерируют некорректные, сфабрикованные или опасные предложения с тревожной частотой — 29-45% кода, сгенерированного ИИ, содержит уязвимости безопасности, и почти 20% рекомендаций пакетов указывают на библиотеки, которых не существует.

27 декабря 2025
15 мин чтения

Хорошая новость в том, что исследования 2024-2025 годов выявили стратегии снижения галлюцинаций до 96% — однако ни один инструмент не устраняет их полностью, и разрыв между заявлениями поставщиков и результатами независимых исследований остается существенным.

29-45%

кода, сгенерированного ИИ, содержит уязвимости безопасности

19,7%

рекомендаций пакетов сфабрикованы (не существуют)

96%

снижение галлюцинаций при комбинированных мерах

Цикл разрушения доверия: когда AI код-ревью становится контрпродуктивным

Вот жестокая ирония галлюцинаций AI код-ревью: вместо экономии времени разработчиков они активно его тратят впустую. Обещание AI код-ревью простое — снизить нагрузку на ревьюеров, выявлять проблемы раньше, доставлять быстрее. Но когда ИИ уверенно сигнализирует о несуществующей проблеме, он запускает каскад напрасных усилий, худший, чем полное отсутствие ИИ.

Временной налог галлюцинаций

1

Разработчик получает комментарий ИИ о «критической проблеме»

Разработчик прерывает работу и переключает контекст для расследования

2

Расследование начинается — но проблемы не существует

Разработчик не сразу понимает, что это галлюцинация. Он копает глубже, проверяет документацию, отслеживает пути кода, консультируется с коллегами

3

Осознание: «Это галлюцинация»

После 15-30 минут расследования разработчик приходит к выводу, что ИИ ошибся. Время потрачено впустую, накопилось разочарование

4

Доверие разрушается

После 3-5 подобных инцидентов разработчик перестает доверять результатам ИИ. Он начинает игнорировать комментарии полностью — включая обоснованные

Это худший возможный результат для инструмента AI код-ревью. Вы заплатили за сервис, который должен помогать разработчикам, но вместо этого:

Время тратится, а не экономится

Расследование галлюцинированных проблем занимает больше времени, чем поиск реальных — потому что вы ищете то, чего не существует

Реальные проблемы остаются незамеченными

Как только разработчики начинают игнорировать комментарии ИИ, они пропускают и легитимные находки — что сводит на нет всю цель

Опыт разработчика страдает

Нет ничего более раздражающего, чем получить сообщение о баге, которого не существует. Обидно тратить 20 минут на доказательство ошибки ИИ

Инвестиции потеряны

Инструмент, который разработчики игнорируют, имеет нулевой ROI — независимо от стоимости внедрения

Почему diffray инвестирует в валидацию

Именно поэтому diffray включает выделенную фазу валидации в наш пайплайн ревью. После того как специализированные агенты генерируют находки, агент валидации проверяет каждую проблему относительно реального контекста кода перед показом разработчикам.

Да, это требует дополнительного времени. Да, это потребляет больше токенов и недешево. Но качество — наш высший приоритет — потому что мы понимаем, что один галлюцинированный комментарий может разрушить недели построения доверия.

Каждый предотвращенный ложноположительный результат избавляет разработчиков от спирали разочарования. Каждая валидированная находка приходит с уверенностью, что она стоит расследования. Это разница между инструментом, которому разработчики доверяют, и тем, который они учатся игнорировать.

Почему LLM галлюцинируют: фундаментальная проблема

LLM галлюцинируют, потому что они оптимизированы быть уверенными экзаменаторами, а не осторожными рассуждающими. Статья OpenAI от сентября 2025 года авторства Kalai и др. демонстрирует, что галлюцинации проистекают из стимулов обучения: когда некорректные утверждения невозможно отличить от фактов во время оценки, модели учатся, что уверенное угадывание превосходит признание неопределенности. Авторы заключают, что «LLM галлюцинируют, потому что процедуры обучения и оценки вознаграждают угадывание, а не признание неопределенности».

Это не баг, который можно исправить — это структурная особенность. Статья 2024 года из Национального университета Сингапура математически доказывает, что галлюцинации неизбежны, когда LLM используются как универсальные решатели задач. Используя теорию вычислимости, исследователи продемонстрировали, что LLM не могут выучить все вычислимые функции и поэтому будут генерировать ложные выходы при выходе за пределы обучающего распределения.

Таксономия галлюцинаций для код-ревью

Фактические ошибки

Модели уверенно утверждают некорректную информацию — как Google Bard ложно утверждавший, что телескоп Джеймса Вебба сделал первые снимки экзопланет.

Сфабрикованные источники

Точность цитирования GPT-4 составила всего 13,4% — это значит, что 86,6% сгенерированных академических ссылок были частично или полностью выдуманы.

Ошибки рассуждения

Логические несоответствия в ответах, составляющие около 19% галлюцинаций согласно обзору ACM Huang и др.

Ошибки, индуцированные промптом

Модели следуют некорректным предпосылкам во входных данных пользователя, демонстрируя подхалимское согласие вместо исправления.

Рейтинг галлюцинаций Vectara (октябрь 2025)

Уровень галлюцинаций для задач суммаризации — но эти цифры занижают проблемы, специфичные для домена:

Gemini-2.0-Flash
0,7%
GPT-4o
1,5%
Claude-3.5-Sonnet
4,6%

Внимание: Показатели для конкретных доменов значительно выше — Stanford HAI обнаружил, что LLM галлюцинируют в 69-88% специфических юридических вопросов.

Код-ревью представляет особенно опасные сценарии галлюцинаций

Галлюцинации код-ревью проявляются способами, которые могут скомпрометировать безопасность, сломать продакшен-системы и разрушить доверие разработчиков.

Уязвимости безопасности в сгенерированном коде

40%

программ, сгенерированных GitHub Copilot, содержали эксплуатируемые уязвимости безопасности (исследование NYU на 1 692 программах)

45%

кода, сгенерированного ИИ, не проходит тесты безопасности (исследование Veracode 2025 на 80 задачах кодирования по 100+ LLM)

Язык имеет значение: Код на C показал ~50% уровень уязвимостей против 39% у Python. Java имела 72% уровень сбоев с XSS-уязвимостями, проваливающимися в 86% случаев.

«Slopsquatting»: вектор атаки через сфабрикованные пакеты

Совместное исследование Техасского университета в Сан-Антонио, Virginia Tech и Университета Оклахомы протестировало 16 LLM для генерации кода на 576 000 образцах кода. Они обнаружили, что 19,7% рекомендованных пакетов (всего 205 000) были сфабрикованы и не существовали.

58% галлюцинированных пакетов повторялись в нескольких запросах, делая их эксплуатируемыми атакующими, которые регистрируют вымышленные имена пакетов. Один галлюцинированный пакет, «huggingface-cli», был загружен более 30 000 раз за три месяца, несмотря на отсутствие кода.

5-15%

Стандартный уровень ложноположительных результатов в AI код-ревью

6,1 ч

Еженедельное время на сортировку оповещений инструментов безопасности

$1,3М

Годовая стоимость управления ложноположительными результатами для предприятий

Реальные инциденты безопасности

  • CamoLeak (июнь 2025): Критическая уязвимость CVSS 9.6 в GitHub Copilot позволяла скрытую эксфильтрацию секретов и исходного кода через невидимые Unicode-инъекции промптов.
  • Backdoor Rules File (март 2025): Pillar Security обнаружили, что атакующие могут внедрять скрытые вредоносные инструкции в конфигурационные файлы Cursor и Copilot, используя маркеры двунаправленного текста.

Стратегии смягчения показывают перспективы, но требуют многоуровневых подходов

Исследования 2024-2025 демонстрируют, что комбинирование нескольких техник смягчения дает драматически лучшие результаты, чем любой отдельный подход. Исследование Stanford показало, что сочетание RAG, RLHF и защитных ограничений приводит к снижению галлюцинаций на 96% по сравнению с базовыми моделями.

Генерация с дополненным извлечением (RAG)

Снижение галлюцинаций60-80%

Привязывает выходы LLM к извлеченной документации и контексту кода. Индексируйте функции, классы и документацию как эмбеддинги, затем извлекайте релевантный контекст перед генерацией.

Мультиагентные архитектуры

Улучшение согласованности85,5%

Специализированные агенты для генерации, проверки и исправления. Фреймворк CORE от Microsoft снизил ложноположительные результаты на 25,8% и успешно проверил 59,2% Python-файлов.

Интеграция статического анализа

Улучшение точности89,5%

Фреймворк IRIS (ICLR 2025) обнаружил 55 уязвимостей против 27 у CodeQL. LLM-Driven SAST-Genius снизил ложноположительные результаты с 225 до 20.

Цепочка верификации (CoVe)

Улучшение FACTSCORE28%

Четырехэтапный процесс Meta AI: генерация базы, планирование вопросов верификации, независимые ответы, генерация проверенного ответа. Более чем удвоил точность на задачах Wikidata.

Разрыв доверия между поставщиками и разработчиками

Снижение доверия разработчиков

2024: Доверяют точности ИИ43%
2025: Доверяют точности ИИ33%
2025: Активное недоверие46%

Источник: Опросы Stack Overflow Developer 2024-2025 (65 000+ разработчиков)

Парадокс продуктивности

55,8%быстрее завершение задач (контролируемый эксперимент GitHub)
19%медленнее в реальном исследовании с опытными разработчиками (RCT METR, июль 2025)
66%называют «почти правильно, но не совсем» главным раздражителем

JetBrains 2024: 59% не уверены по соображениям безопасности, 42% имеют этические опасения, 28% компаний ограничивают использование ИИ-инструментов

Рекомендации для технических лидеров

Многоуровневая архитектура защиты

1

Входной уровень

Традиционный статический анализ для выявления определенных проблем с высокой точностью

2

Уровень извлечения

RAG с контекстом кода, документацией и результатами статического анализа (снижение галлюцинаций на 60-80%)

3

Уровень генерации

LLM с промптингом цепочки рассуждений и структурированными форматами вывода

4

Уровень верификации

Перекрестная валидация мультиагентами или самопроверка для предложений высокого риска

5

Выходной уровень

Защитные ограничения и детерминированная валидация перед представлением разработчикам

Метрики для отслеживания

  • Уровень галлюцинаций по сессии ревью
  • Точность/полнота предложенных изменений
  • Уровень принятия предложений пользователями
  • Время на расследование ложноположительных результатов
  • Обнаруженные vs внесенные уязвимости безопасности

Критерии оценки поставщиков

  • Опубликованные метрики точности с методологией
  • Возможности интеграции статического анализа
  • Детали архитектуры извлечения контекста
  • Механизмы обработки ложноположительных результатов
  • Варианты развертывания (облако vs self-hosted)

Требуется скептицизм

Инструменты, заявляющие 95%+ точность без опубликованной методологии, заслуживают скептицизма — независимые бенчмарки постоянно показывают более низкую реальную производительность.

Как diffray решает проблемы рисков галлюцинаций

Галлюцинации LLM в AI код-ревью представляют структурную проблему, а не временное ограничение. Наиболее эффективное смягчение сочетает дополнение извлечением (снижение на 60-80%), интеграцию статического анализа (89,5% точности в гибридных подходах) и пайплайны верификации (улучшение на 28%) — вместе достигая до 96% снижения галлюцинаций.

Многоуровневый подход diffray

diffray реализует стратегии, подтвержденные исследованиями, которые снижают галлюцинации до 96% — курируемый контекст, валидация на основе правил и мультиагентная верификация.

Курирование контекста
  • • Каждый агент получает только релевантный для домена контекст
  • • Контекст остается под 25K токенов (эффективное окно)
  • • Правила предоставляют структурированные критерии валидации
  • • Нет деградации «потерянного в середине»
Мультиагентная верификация
  • • 10 специализированных агентов перекрестно валидируют находки
  • • Уровень дедупликации устраняет противоречия
  • • Интеграция статического анализа для детерминизма
  • • Человеческий надзор как окончательный арбитр

Путь вперед требует рассматривать AI код-ревью как умножитель продуктивности, требующий человеческого надзора, а не автономную замену человеческого суждения.

Ключевые исследовательские источники

Познакомьтесь с код-ревью, устойчивым к галлюцинациям

Узнайте, как мультиагентная архитектура diffray, курируемый контекст и валидация на основе правил обеспечивают действенную обратную связь по код-ревью с драматически сниженным уровнем галлюцинаций.

Похожие статьи

AI Code Review Playbook

Data-driven insights from 50+ research sources on code review bottlenecks, AI adoption, and developer psychology.