Construire un Corpus Discours Multilingue
DataForce prend en charge un leader mondial du matériel audio avec des données de haute qualité pour affiner son moteur ASR.
Le problème
Les systèmes de reconnaissance automatique de la parole (ASR) peuvent convertir les commandes de l'utilisateur en texte qui est ensuite traité par des systèmes de traitement du langage naturel. Pour avoir une mise en œuvre ASR efficace, il faut tenir compte de plusieurs aspects, tels que les variations de son et de voix selon les sexes, les groupes d'âge, les accents et les dialectes, ainsi que le bruit de fond associé à l'environnement où le système ASR sera utilisé. Dans ce cas, le client devait collecter des données de formation et de test auprès de plusieurs groupes démographiques en anglais, hindi, allemand, français et italien.
La solution
DataForce a collecté des données vocales et du bruit de fond dans plusieurs scénarios à l'aide de notre application mobile exclusive, DataForce Contribute. Notre application s'est assurée que les fichiers audio respectaient toutes les exigences techniques, telles que le rapport signal sur bruit et le taux d'échantillonnage. Après avoir collecté toutes les commandes vocales et le bruit ambiant dans les conditions de stationnement, de conduite et de fenêtres ouvertes/fermées, la convolution des ondes sonores a permis de créer des ensembles de données simulant un environnement réel. Avec la solution de DataForce, le client a développé et testé un moteur ASR efficace capable de comprendre les commandes vocales dans plusieurs langues dans différents scénarios.