La recherche vocale de Google devient plus fiable avec le S2R

Google remplace la chaîne « parole → texte → recherche » par un modèle qui recherche directement depuis la voix, sans transcription intermédiaire, pour des réponses plus rapides et plus fidèles à l’intention, déjà déployé dans plusieurs langues. Sous le capot, Google relie la requête parlée aux contenus les plus pertinents et laisse son système de classement faire le tri final, tout en s’appuyant sur un jeu de tests ouvert (SVQ) pour évaluer les progrès réels et comparables dans le temps. Explications.

Ce qu'il faut retenir :

S2R court-circuite l’ASR : la requête parlée est convertie en vecteur sémantique et mise en correspondance directe avec les documents, réduisant les erreurs de transcription.
Les performances dépassent le cascade ASR et flirtent avec le “ground truth” idéal sur MRR, signe d’un saut qualitatif concret en pertinence.
Le système est live, en plusieurs langues, avec un ranking qui combine similarité sémantique et centaines de signaux de qualité.
Google publie le dataset SVQ (17 langues, 26 locales) au sein du benchmark MSEB pour faire progresser l’écosystème.

Pourquoi Google change tout maintenant

Jusqu’à maintenant, la chaîne « Cascade ASR » (Automatic Speech Recognition) convertissait d’abord l’audio en texte, puis lançait une recherche classique, mais la moindre erreur (ex. « scream » au lieu de « screen ») déviait l’intention et les résultats, un problème structurel d’erreur de transcription et de perte de contexte. S2R (Speech-to-Retrieval) pose une autre question : non plus « quels mots ont été prononcés ? », mais « quelle information est recherchée ? », ce qui diminue fortement la propagation des erreurs.

Au-delà des exemples, Google a comparé un système réel Cascade ASR avec un « Cascade groundtruth » (transcriptions humaines parfaites) et a observé un écart substantiel en MRR (Mean Reciprocal Rank), montrant que même un ASR parfait ne garantit pas la meilleure pertinence, d’où l’intérêt d’optimiser directement pour l’intention de recherche. Cette observation a motivé l’architecture S2R et l’évaluation dédiée.

Comment fonctionne S2R ?

Le cœur de S2R est un dual-encoder : un encodeur audio transforme la requête vocale en embedding riche, et un encodeur de documents projette les pages dans le même espace sémantique, pour rapprocher les paires audio-document pertinentes et éloigner les autres. L’objectif d’entraînement aligne géométriquement les vecteurs audio avec leurs documents cibles.

En production, l’embedding audio sert à récupérer rapidement des candidats proches dans l’index, puis un étage de ranking orchestre la position finale en combinant la similarité et des centaines de signaux de qualité de Search. Cette intégration conserve la vitesse perçue tout en maximisant la pertinence finale.

Les résultats : mieux que l’ASR, proche du plafond

Sur le dataset SVQ (Simple Voice Questions), S2R surpasse nettement le Cascade ASR et se rapproche du « upper bound » du Cascade Groundtruth en MRR, montrant des gains robustes multi-langues. Google souligne toutefois un petit écart résiduel, laissant un espace d’amélioration future et de recherche.

Point clé révélé par les tests : une baisse de WER (Word Error Rate) ne se traduit pas mécaniquement par une hausse de MRR, car l’impact des erreurs dépend du type d’erreur et de la langue. Optimiser la compréhension d’intention directement depuis l’audio est donc plus pertinent pour la recherche. Cette dissociation WER/MRR justifie l’approche S2R orientée intention.

Derniers événements

Derniers Articles