Trascrizione del parlato: lo Speech-to-Text B2B di Cedat85

di Alessia Valentini

3 Settembre 2014 09:06

Soluzioni B2B e B2C per la trascrizione automatica e in tempo reale del parlato in testo scritto: l'offerta Cedat85 per i diversi ambiti di applicazione.

Chi è in cerca di sistemi di riconoscimento vocale STT per il proprio lavoro – verbalizzazione, resocontazione, sottotitolazione, trascrizione automatica e trattamento del linguaggio – può contare su diversi provider di tecnologie ad hoc, tra cui l’italianissima Cedat85, che offre soluzioni (anche proprietarie) per rispondere in maniera professionale all’esigenza di trasformare il parlato in testo scritto. Ce ne illustra i dettagli il CEO Gianfranco Mazzoccoli insieme ad alcuni manager dell’azienda, che annovera tra i suoi clienti numerosi enti della Pubblica Amministrazione Centrale e Locale, Università e grosse Corporate e che opera attraverso realtà con competenze specifiche: Cedat 85 Srl, Subtitle Voice e Real Time Reporting Srl.Il prodotto di punta si chiama +Voce, basato su tecnologia Speech-to-Text (STT), da non confondersi con quella inversa di Text-to-Speech (TTS). Frutto di una lunga attività di ricerca nel campo del riconoscimento automatico della voce, iniziata nel ’90 con IBM e risultata in un brevetto, prevede la resocontazione interamente digitale, basato su un sistema proprietario di trascrizione automatica (speaker indipendent) con sincronizzazione audio-testo e la trasmissione in diretta in qualsiasi luogo.

Soluzioni B2B e B2C

  • MediaMonitor: trascrizione di dialoghi di TV e Radio
  • Trascrivi.it: trascrizioni automatiche online per liberi professionisti
  • Sbobina.it: trascrizioni automatiche online per studenti universitari
  • RealTimeReporting:trascrizione in tempo reale di convegni e congressi
  • VoiceNote: applicazione Android per memorizzare appunti su smartphone
  • BeSmartCall: trascrizione e analisi chiamate inbound e outbound di contact center
  • Magnetofono: trascrizione automatica e verbalizzazione di assemblee comunali
  • MediaMonitor: monitoraggio online in tempo reale di Radio e TV per uffici stampa e centri media.

Le lingue disponibili sono: italiano (modello microfonico e telefonico), inglese (microfonico e telefonico), tedesco, portoghese brasiliano ed spagnolo europeo. Per esigenze specifiche (dialetti o nuove lingue) è possibile sviluppare modelli ad hoc in circa due mesi. Per l’italiano il sistema è speaker independent, ovvero non richiede alcun addestramento sulla voce dell’utente perché è in grado di riconoscerne una qualsiasi purché madrelingua e adulta.

Nel pacchetto, la trascrizione automatica è fornita come servizio e non come software, anche se è disponibile una soluzione in house acquistando l’intero motore di riconoscimento. La trascrizione automatica è alla base di una serie di web app senza installazione (dal media monitoring alla speech analytics), con interfacce grafiche semplici e intuitive adatte a qualsiasi utente. Sono disponibili anche applicazioni mobile, per effettuare ricerche sul web, conversazioni tramite chat o messaggi. Sul sistema di trascrizione automatica è possibile impostare parametri personalizzati (es.: velocità di trascrizione rispetto alla durata dell’audio) e qualitativi che consentono di selezionare modelli di linguaggio legati ad uno specifico contesto (politico, giudiziario, media, telefonico…) connotandone il dizionario.

Per l’indicizzazione e velocizzazione della ricerca full-text è stata utilizzata una soluzione sviluppata sulla base di Lucene, API gratuita e open source per il reperimento di informazioni supportata dall’Apache Software Foundation. La trasformazione in tempo reale del dialogo in testo permette alla tecnologia +Voce di fornire la base per l’indicizzazione puntuale del file audio o audiovideo per una ricerca full text all’interno di tutti gli elementi audiovideo. Questa soluzione consente di guidare l’utente esattamente sul frame cercato e sull’esatto punto in cui una parola o un nome viene pronunciato all’interno della sequenza audiovideo.

Il sistema di trascrizione automatica del parlato (ASR) di Cedat85 vanta un’architettura client/server web oriented, e offre trascrizione di sorgenti audio (registrazioni, audio diretto, audio di filmati ecc.), in diretta (audio in streaming) e in differita (batch). Opera in ambiente Linux e può utilizzare processori multipli con un elevato livello di parallelismo.

In cantiere ci sono nuovi strumenti e funzionalità come la speaker verification e diarization, oltre che un affinamento nel riconoscimento del timbro vocale da impiegarsi in ambito sicurezza (per es. come password personale per accedere a funzioni riservate e disposizioni di pagamento)

I costi del prodotto Cedat85 dipendono dalla customizzazione, adattandosi alle specifiche esigenze, con una flessibilità che lo rende competitivo rispetto alle tariffe flat e scontistiche prefissate tipiche dei grossi provider esteri. Tutte le soluzioni beneficiano di assistenza always on 7/7 gg, che si occupa di fare formazione e rendere disponibili le implementazioni e le nuove release.