What makes diffray different from other AI code review tools?

diffray uses multi-agent intelligence instead of single-model AI. Multiple specialized agents work together - Security Agent, Performance Agent, Architecture Agent, and Consistency Agent - each expert in their domain. This coordinated approach reduces false positives by 87% and catches 3x more real bugs compared to traditional single-agent tools like GitHub Copilot or CodeRabbit.

How does multi-agent AI code review work?

Multi-agent AI code review deploys specialized agents that work in parallel, each focused on a specific domain: security vulnerabilities, performance bottlenecks, architectural patterns, and code consistency. Unlike single-model approaches that suffer from context dilution, each agent maintains deep expertise in its area. Research shows this approach improves bug detection by 3x while reducing noise.

Is diffray free for open source projects?

Yes, diffray is completely free forever for open source projects. We support the open source community with full access to our multi-agent code review platform, including all specialized agents, unlimited reviews, and priority support.

What programming languages does diffray support?

diffray supports all major programming languages including TypeScript, JavaScript, Python, Go, Rust, Java, C#, Ruby, PHP, and more. The multi-agent system is language-agnostic and adapts its analysis to language-specific patterns and best practices.

How does diffray integrate with GitHub?

diffray integrates seamlessly with GitHub through a GitHub App. Once installed, it automatically reviews every pull request, posting actionable comments directly on the PR. Setup takes less than 2 minutes with no configuration required. Enterprise teams can also use diffray CLI for local reviews before pushing code.

What is the difference between diffray and CodeRabbit or GitHub Copilot?

While CodeRabbit and GitHub Copilot use single-model AI that can hallucinate and produce false positives, diffray employs multi-agent intelligence where specialized agents cross-validate findings. This results in 87% fewer false positives. Additionally, diffray provides full codebase awareness, custom rule support, and agent memory that learns from your team's patterns.

Can diffray detect security vulnerabilities?

Yes, diffray's Security Agent is specifically trained to detect OWASP Top 10 vulnerabilities, injection attacks, authentication flaws, and sensitive data exposure. It analyzes code in context of your entire codebase, reducing false positives while catching real security issues that static analysis tools miss.

How much does diffray reduce code review time?

According to our customer data, teams using diffray reduce PR review time by 73% on average - from 45 minutes to 12 minutes per week. This is because diffray's multi-agent system produces 87% fewer false positives, so developers spend time on real issues instead of filtering noise.

What is the developer action rate on diffray comments?

diffray achieves a 98% developer action rate on its comments, compared to industry average of 15-20% for traditional AI code review tools. This high engagement is due to our multi-agent approach that eliminates noise and surfaces only actionable findings with confidence scores.

How does diffray handle duplicate comments?

diffray guarantees zero duplicate comments through its intelligent deduplication system. Unlike single-agent tools that often flag the same issue multiple times across a PR, diffray's agents coordinate to consolidate findings and present each issue exactly once with full context.

Does diffray store my code?

No, diffray never stores your source code. Code is processed in memory during the review and immediately discarded. We are SOC 2 compliant and your code is never used for AI training. Enterprise customers can also use our on-premise deployment option for complete data sovereignty.

How does diffray compare to GitHub Copilot code review?

While GitHub Copilot uses a single AI model for code review, diffray employs specialized multi-agent intelligence. Research shows multi-agent systems catch 3x more real bugs while producing 87% fewer false positives. diffray also provides full codebase awareness, custom rules, and agent memory - features not available in Copilot's code review.

Pourquoi le Contexte Curé Surpasse le Volume de Contexte pour les Agents IA

Les preuves sont concluantes : déverser plus de contexte dans les modèles IA nuit activement à la performance. La recherche de Stanford, Anthropic et les données de production des principaux outils de coding IA montrent que les modèles commencent à échouer autour de 25-30k tokens — bien en dessous de leurs fenêtres de contexte annoncées.

L'approche gagnante combine la récupération de précision avec la collecte de contexte agentique, où l'IA elle-même décide de quelles informations elle a besoin. Cette compilation de recherche fournit des statistiques concrètes, des résultats citables et des exemples spécifiques démontrant que pour le code review et autres tâches de coding IA, moins de documents hautement pertinents surpassent les grands dumps de contexte de 10-20%, et que les approches de récupération agentique atteignent des améliorations de 7x par rapport à l'injection de contexte statique.

Le Problème « Lost in the Middle » Sape les Grandes Fenêtres de Contexte

L'article phare de 2024 « Lost in the Middle: How Language Models Use Long Contexts » de Liu et al. (Stanford/UC Berkeley, publié dans TACL) a révélé un défaut fondamental dans la façon dont les LLMs traitent les longs contextes. Les chercheurs ont découvert que la performance se dégrade significativement quand l'information pertinente apparaît au milieu de longs contextes — même pour les modèles explicitement conçus pour un contexte étendu.

L'article a documenté une caractéristique courbe de performance en U sur tous les modèles testés, y compris GPT-4 et Claude. Les modèles performent bien quand l'information critique est au début ou à la fin du contexte, mais la précision chute substantiellement pour les informations positionnées au milieu. Comme les auteurs l'ont déclaré :

« Prompter les modèles de langage avec des contextes d'entrée plus longs est un compromis — fournir plus d'informations au modèle de langage peut l'aider à accomplir la tâche en aval, mais cela augmente aussi la quantité de contenu sur laquelle le modèle doit raisonner. »

L'étude « Context Rot » de Chroma Research en 2025 a étendu ces résultats en testant 18 LLMs à travers des milliers d'expériences. Leur conclusion : « À travers toutes les expériences, la performance du modèle se dégrade constamment avec l'augmentation de la longueur d'entrée. Les modèles n'utilisent pas leur contexte uniformément ; au lieu de cela, leur performance devient de plus en plus peu fiable à mesure que la longueur d'entrée augmente. »

Ce n'est pas un effet mineur — Xiaodong Cui d'IBM Research a résumé : « Nous avons prouvé que la qualité des exemples compte. En d'autres termes, rendre les fenêtres de contexte infiniment plus longues peut être contre-productif à un certain point. »

Moins de Documents au Même Nombre de Tokens Améliore Dramatiquement la Précision

Peut-être la preuve la plus frappante vient de l'étude de l'Université Hébraïque « More Documents, Same Length » (Levy et al., 2025), qui a isolé l'effet du nombre de documents tout en gardant la longueur totale du contexte constante. En étendant les documents restants lors de la réduction du nombre de documents, ils ont éliminé la variable confondante de la longueur du contexte.

10-20%

d'amélioration de performance en réduisant le nombre de documents tout en maintenant le même nombre total de tokens

Les résultats étaient sans ambiguïté : réduire le nombre de documents tout en maintenant le même nombre total de tokens a amélioré la performance de 5-10% sur MuSiQue et 10-20% sur 2WikiMultiHopQA. Ajouter plus de documents a causé jusqu'à 20% de dégradation de performance — même si le modèle recevait la même quantité de texte.

Les chercheurs ont conclu : « Les LLMs souffrent quand on leur présente plus de documents, même quand la longueur totale du contexte est la même. Cela peut être dû aux défis uniques du traitement multi-documents, qui implique de traiter des informations réparties sur plusieurs sources, ce qui peut introduire des détails conflictuels ou chevauchants. »

Les Outils de Coding IA en Production Ont Découvert le Plafond de ~25k Tokens

Paul Gauthier, créateur d'Aider (l'outil de coding IA open-source populaire), offre des preuves directes de praticien :

« D'après mon expérience avec le coding IA, les très grandes fenêtres de contexte ne sont pas utiles en pratique. Chaque modèle semble se perdre quand vous lui donnez plus de ~25-30k tokens. Les modèles arrêtent d'obéir à leurs prompts système, ne peuvent pas correctement trouver/transcrire des morceaux de code dans le contexte, etc. »

Il note que c'est « peut-être le problème #1 que les utilisateurs ont » avec les assistants de coding IA.

L'équipe de recherche de Cursor a quantifié la valeur de la récupération sélective par des tests A/B. Leur système de recherche sémantique délivre 12,5% de précision en plus pour répondre aux questions (allant de 6,5% à 23,5% selon le modèle), et les changements de code sont plus susceptibles d'être conservés dans les bases de code.

Sur les grandes bases de code avec 1 000+ fichiers, la rétention de code s'est améliorée de +2,6% avec la recherche sémantique, tandis que sa désactivation a augmenté les requêtes utilisateurs insatisfaites de 2,2%. L'équipe de Cursor souligne : « La recherche sémantique est actuellement nécessaire pour obtenir les meilleurs résultats, surtout dans les grandes bases de code. Notre agent fait un usage intensif de grep ainsi que de la recherche sémantique, et la combinaison des deux mène aux meilleurs résultats. »

La Récupération Agentique Surpasse l'Injection de Contexte Statique de 7-21x

Le changement de paradigme émergent du RAG statique vers le « RAG Agentique » montre des améliorations de performance dramatiques. Le RAG traditionnel a des limitations fondamentales : c'est une « solution en un coup, ce qui signifie que le contexte est récupéré une fois. Il n'y a pas de raisonnement ou de validation sur la qualité du contexte récupéré » et il récupère toujours « les mêmes top-k chunks indépendamment de la complexité de la requête ou de l'intention de l'utilisateur. »

Les approches agentiques intègrent des agents autonomes dans les pipelines de récupération en utilisant quatre patterns de conception : réflexion, planification, utilisation d'outils et collaboration multi-agent. Le pattern dominant est ReAct (Reasoning + Acting), qui opère en boucles itératives Thought → Action → Observation.

Architecture de Boucle ReAct :

Générer une étape de raisonnement
Décider d'une action
Exécuter un outil
Mettre à jour le contexte basé sur les observations

Les gains de performance sont substantiels :

+21 pts

Amélioration de récupération IRCoT sur le raisonnement multi-hop

Amélioration de Devin par rapport à la récupération statique sur SWE-bench

91%

Reflexion pass@1 vs 80% de GPT-4 sur HumanEval

Le Code Review Démontre le Compromis Précision-Recall de Façon Aiguë

Pour le code review IA spécifiquement, les preuves favorisent fortement la précision plutôt que l'exhaustivité. Plusieurs études rapportent des taux de faux positifs de 60-80% pour les outils qui optimisent le recall, et 40% des alertes de code review IA sont ignorées en raison de la fatigue d'alerte.

Les modes d'échec sont bien documentés. Les implémentations initiales ont souvent des ratios faux/correct extrêmement élevés, « ne tenant pas compte du contexte en dehors des lignes qui ont changé ». Après optimisation, les outils leaders ont réduit cela dramatiquement, atteignant un taux de faux positifs attendu de 5-8% en se concentrant sur les suggestions à haute confiance.

Une étude à grande échelle analysant 22 000+ commentaires de code review IA a trouvé que :

3xLes commentaires concis sont plus susceptibles d'être suivis
MeilleurLes outils niveau hunk (focalisés sur des chunks de code spécifiques) surpassent les outils niveau fichier
Plus élevéLes revues déclenchées manuellement ont une adoption plus élevée que le spam automatique

Hiérarchie de Contexte Pratique pour le Code Review

Basé sur la recherche, les types de contexte pour le code review se classent par valeur :

Contexte Essentiel

Le diff lui-même avec le code environnant
Les standards de codage encodés dans les fichiers de configuration
Les descriptions de PR liées aux issues — qui révèlent l'intention, pas juste les changements

Contexte de Haute Valeur

Les fichiers liés (imports, tests, dépendances) mappés par analyse de graphe de code
Les PRs précédents/historique de commits pour la reconnaissance de patterns

Contexte Situationnel

Git blame pour les patterns de propriété du code
Documentation de projet depuis des outils intégrés comme Notion ou Linear

Architecture Multi-Agent : La Curation de Contexte en Pratique

Une des approches les plus efficaces pour implémenter le contexte curé est l'architecture multi-agent. Au lieu de tout donner à un seul modèle, des agents spécialisés se concentrent chacun sur leur domaine — sécurité, performance, architecture, bugs — avec précisément le contexte dont ils ont besoin.

Cette approche résout naturellement le problème de volume de contexte : un agent de sécurité n'a pas besoin de benchmarks de performance, et un agent de détection de bugs n'a pas besoin de documentation de guide de style. Chaque agent reçoit une fenêtre de contexte focalisée et curée, optimisée pour sa tâche spécifique.

Chez diffray, nous avons construit notre plateforme de code review sur ce principe. Notre système multi-agent a prouvé son efficacité en production, atteignant des taux de faux positifs significativement plus bas et une adoption plus élevée par les développeurs comparé aux approches à agent unique.

En savoir plus sur notre architecture multi-agent →

Conclusion : Les Trois Principes du Contexte Efficace

La recherche converge sur trois principes pour la gestion du contexte des agents IA :

1. Moins C'est Plus Quand C'est Curé

L'étude de l'Université Hébraïque prouve que même à nombre de tokens identique, moins de documents de haute qualité battent de nombreux fragments de 10-20%. Les modèles peinent à synthétiser des informations réparties sur plusieurs sources — la consolidation améliore le raisonnement.

2. La Position et la Structure Comptent Autant que le Contenu

Le phénomène « lost in the middle » signifie que l'information critique devrait apparaître au début ou à la fin du contexte. Pour le code review, cela signifie prioriser le diff et les standards de codage plutôt que le contexte historique exhaustif.

3. Les Agents Qui Collectent Leur Propre Contexte Surpassent l'Injection Statique

Le passage du RAG en un coup à la récupération agentique — avec raisonnement itératif, utilisation d'outils et auto-évaluation — produit des améliorations de 7x+ sur les tâches de coding complexes. Quand un agent peut décider « J'ai besoin de voir le fichier de test pour cette fonction » et le récupérer, le contexte résultant est intrinsèquement plus pertinent que n'importe quelle récupération précalculée.

Pour les outils de code review comme diffray.ai, ces résultats suggèrent l'architecture optimale : un système de récupération sélective qui ne récupère que le contexte le plus pertinent pour chaque changement spécifique, combiné avec des capacités agentiques qui permettent au réviseur d'explorer le code lié selon les besoins — traitant le contexte comme une ressource rare à budgéter, pas un dump à maximiser.

Expérimentez le Code Review Conscient du Contexte

Voyez comment l'architecture multi-agent de diffray.ai applique ces principes — contexte curé, agents spécialisés et récupération agentique — pour délivrer des retours de code review actionnables.

Démarrer l'Essai Gratuit Lire la Documentation

Pourquoi le Contexte Curé Bat
le Volume de Contexte pour les Agents IA

Le Problème « Lost in the Middle » Sape les Grandes Fenêtres de Contexte

Moins de Documents au Même Nombre de Tokens Améliore Dramatiquement la Précision

Les Outils de Coding IA en Production Ont Découvert le Plafond de ~25k Tokens

La Récupération Agentique Surpasse l'Injection de Contexte Statique de 7-21x

Architecture de Boucle ReAct :

Le Code Review Démontre le Compromis Précision-Recall de Façon Aiguë

Hiérarchie de Contexte Pratique pour le Code Review

Contexte Essentiel

Contexte de Haute Valeur

Contexte Situationnel

Architecture Multi-Agent : La Curation de Contexte en Pratique

Conclusion : Les Trois Principes du Contexte Efficace

1. Moins C'est Plus Quand C'est Curé

2. La Position et la Structure Comptent Autant que le Contenu

3. Les Agents Qui Collectent Leur Propre Contexte Surpassent l'Injection Statique

Expérimentez le Code Review Conscient du Contexte

Articles Connexes

Why Noisy AI Code Review Tools Deliver Negative ROI

Context Awareness in AI Code Review: How Intelligent Systems Understand Your Codebase

Introducing Agent Store: Create, Share, and Discover Custom AI Agents

AI Code Review Playbook

Pourquoi le Contexte Curé Batle Volume de Contexte pour les Agents IA

Le Problème « Lost in the Middle » Sape les Grandes Fenêtres de Contexte

Moins de Documents au Même Nombre de Tokens Améliore Dramatiquement la Précision

Les Outils de Coding IA en Production Ont Découvert le Plafond de ~25k Tokens

La Récupération Agentique Surpasse l'Injection de Contexte Statique de 7-21x

Architecture de Boucle ReAct :

Le Code Review Démontre le Compromis Précision-Recall de Façon Aiguë

Hiérarchie de Contexte Pratique pour le Code Review

Contexte Essentiel

Contexte de Haute Valeur

Contexte Situationnel

Architecture Multi-Agent : La Curation de Contexte en Pratique

Conclusion : Les Trois Principes du Contexte Efficace

1. Moins C'est Plus Quand C'est Curé

2. La Position et la Structure Comptent Autant que le Contenu

3. Les Agents Qui Collectent Leur Propre Contexte Surpassent l'Injection Statique

Expérimentez le Code Review Conscient du Contexte

Articles Connexes

Why Noisy AI Code Review Tools Deliver Negative ROI

Context Awareness in AI Code Review: How Intelligent Systems Understand Your Codebase

Introducing Agent Store: Create, Share, and Discover Custom AI Agents

AI Code Review Playbook

Pourquoi le Contexte Curé Bat
le Volume de Contexte pour les Agents IA