La transcription et la conversion automatique d'un enregistrement audio ou vidéo sous forme de texte, a réalisé de grands progrès ces dernières années. En effet, dans ce domaine, les algorithmes de détection s'améliorent en permanence. La puissance de calculs et la capacité toujours plus grande à traiter d'énormes quantités de données y contribuent fortement. A titre d'exemple, les spécialistes de linguistique du laboratoire des médias européens (EML) à Heidelberg développent actuellement un système de transcription automatique utilisable dans le cadre des émissions de télévision.
Ce projet, réalisé en partenariat avec la Bayerischer Rundfunk (BR, Service public audiovisuel de la Bavière), met à disposition un système de transcription pour l'émission "BR Alpha Forum". Il s'agit d'une émission quotidienne de 45 minutes où s'entretiennent des personnalités des mondes politique, économique, de la science et de la société, de la religion et de la culture. Le système de transcription dispose dans sa base de données d'un certain nombre d'émissions déjà diffusées. Il "apprend" ainsi le vocabulaire qui est utilisé dans ce programme de télévision. En outre, il "écoute" les locuteurs avec soin et "se forme" à la reconnaissance acoustique de la parole.
"Il ne s'agit pas ici d'intelligence artificielle, mais d'une technologie intelligente de langage", commente le Dr. Siegfried Kunzmann, Directeur R&D de l'ELM. "Nous entraînons les systèmes de reconnaissance de la parole à l'aide d'un grand nombre de textes et d'enregistrements audio correspondant aux domaines d'utilisation du système." Les erreurs dans la reconnaissance sont diminuées grâce à l'analyse grammaticale et orthographique ainsi que l'insertion des signes de ponctuation "non audibles". Ainsi, les chercheurs ont une meilleure représentation et une meilleure structure du texte. Le résultat de la transcription automatique offre comme résultat aussi bien le texte parlé avec la ponctuation que le timing où chaque mot est prononcé.
Le projet pilote de l'EML et du BR a pour but de transcrire automatiquement les discussions de l'émission BR Alpha Forum et de les convertir en manuscrits papier. "En outre, la recherche et la lecture de programmes télévisuels dans les archives vidéo sont désormais rendus possibles via une recherche textuelle", a déclaré Herbert Tillmann, Directeur de la production et de la technique chez Bayerischer Rundfunk. "Enfin, il devrait être possible de diffuser l'émission et le texte transcrit à l'intérieur d'un navigateur Web."