cedat logo cedat logo

What's new

Speech-to-Text: cosa è, a cosa serve, a chi serve.

mercoledì Ottobre 27, 2021

Con tassi di accuratezza che ormai superano anche il 99%, le soluzioni Speech-toText rappresentano la nuova frontiera per le imprese che cercano nuovi modi per migliorare la loro produttività e di offrire esperienze soddisfacenti ai loro dipendenti e collaboratori. Con un occhio, attento e necessario, all’accessibilità

Quando parliamo di Speech-to-Text  facciamo riferimento a una tecnologia assistiva in grado di “tradurre” un contenuto audio in parole scritte, convertendolo o in un documento testuale o in un’altra modalità di visualizzazione.
Originariamente, i software di sintesi vocale erano stati pensati in modo specifico per gli ambienti desktop, ma  la crescente diffusione di dispositivi mobili da un lato e la vera e propria esplosione delle App dall’altro ha convinto sviluppatori e ISV della necessità di rendere disponibile questo tipo di applicazioni e funzionalità anche su smartphone e tablet, aprendone dunque l’utilizzo in una varietà sempre più ampia di scenari applicativi, che vanno dal mondo dell’istruzione a quello delle imprese.

Speech-to-Text: una definizione

Di fatto, con Speech-to-Text ci riferiamo a una tecnologia interdisciplinare, che unisce informatica, ingegneria e linguistica computazionale per consentire il riconoscimento e la traduzione della lingua parlata in testo scritto da parte dei computer.
Non si tratta di una tecnologia nuova, dal momento che le prime sperimentazioni risalgono agli Anni Settanta del secolo scorso, ma non vi è dubbio che negli ultimi anni gli sviluppi nell’ambito dei big data e dell’Intelligenza artificiale abbiano dato una forte spinta al perfezionamento della tecnologia e di conseguenza alla sua affidabilità.
Rispetto al passato, l’accuratezza delle trascrizioni è effettivamente migliorata a un livello tale che, in presenza di una sorgente audio chiara e ben definita, il tasso di precisione riesce a superare il 99%.
La precisazione è d’obbligo. Molto dipende dalle condizioni di registrazione. I software di riconoscimento vocale fanno ancora fatica a interpretare il parlato in un ambiente rumoroso o quando molte persone parlano contemporaneamente.
È anche dalle condizioni ambientali, dunque, più ancora che dalla complessità del parlato, che può dipendere la qualità e l’accuratezza della trascrizione.

Come funziona Speech-to-Text?

Il core di un sistema di trascrizione automatica è rappresentato dal riconoscimento vocale automatico, che integra componenti acustiche e linguistiche.
La componente acustica è responsabile della conversione file audio in una sequenza di unità acustiche molto piccole. Il “suono analogico”, vale a dire le vibrazioni che si creano quando si parla vengono convertite in segnali digitali, analizzabili dal software. Le unità acustiche vengono dunque associate ai “fonemi” esistenti, ovvero ai suoni utilizzati in una lingua specifica per formare espressioni significative.
Successivamente, la componente linguistica è responsabile della conversione delle sequenze di unità acustiche in parole, frasi e paragrafi. La componente linguistica analizza tutte le parole precedenti e la loro relazione per stimare la probabilità di utilizzo di una o di un’altra parola nel prosieguo del discorso.
Tecnicamente si chiamano “Hidden Markov Models”, “modelli Markov nascosti” e sono ampiamente utilizzati in tutti i software di riconoscimento vocale.
Entrambe le componenti devono essere adeguatamente “addestrate” per comprendere una lingua specifica: sia la parte acustica, sia la parte linguistica sono fondamentali per l’accuratezza della trascrizione.
Ma non è tutto.
Quando si parla di soluzioni di riconoscimento vocale, si può fare riferimento a due modelli specifici: speaker dependent o speaker independent.
Nel primo caso il modello viene addestrato su una voce specifica e su specifici casi d’uso. Si garantisce una maggiore accuratezza nel risultato, ma il tempo necessario all’addestramento del sistema può essere lungo. Il “prezzo da pagare” per questa maggiore accuratezza è rappresentato dalla minore agilità della soluzione, che non può essere utilizzata in altri contesti.
Il modello speaker independent, come è facile immaginare, il sistema è in grado di lavorare con più voci diverse, senza richiedere alcun addestramento specifico.

Quali applicazioni per lo Speech-to-Text

Date le premesse, cerchiamo di capire quali sono le applicazioni più interessanti dei sistemi di trascrizione, soffermandoci, in particolare, nelle declinazioni specifiche per il mondo del business e delle imprese.
Non c’è dubbio che in uno scenario nel quale le imprese sono alla ricerca di nuovi modi per introdurre efficienza, automatizzando dove possibile task ripetitivi e a basso valore aggiunto, le soluzioni Speech-to-Text trovano una loro collocazione d’elezione.
La velocità di digitazione di un sistema vocale non è paragonabile a quella manuale: di conseguenza per collaboratori e dipendenti risulta molto più semplice prendere appunti e note, dedicando una porzione residuale del loro tempo alla trascrizione delle note nella loro forma definitiva.
Questo vale a maggior ragione quando si tratta di trascrivere resoconti o verbali di riunioni e incontri: in questo caso in gioco non c’è solo il tempo da dedicare a questa attività, ma anche le responsabilità ad essa correlate. L’implementazione di una soluzione di sintesi vocale non solo consente di ridurre il tempo necessario alla preparazione di note e documenti di riepilogo, ma soprattutto consente a tutti i partecipanti alla riunione di assumere un ruolo più attivo e costruttivo alla discussione, senza doversi preoccupare di prendere correttamente nota di ogni intervento.
Il tutto con un beneficio ulteriore, non sempre trascurabile.
Spesso i verbali delle riunioni sono redatti in uno stile molto asciutto ed essenziale. La disponibilità dell’esatta trascrizione di ciò che si è detto può essere utile a restituire un documento di sintesi più autentico e coinvolgente per chi lo leggerà.

I benefici sulla produttività e sull’efficienza non si riscontrano solo nel corso di riunioni.
I software di Speech-to-Text aiutano anche i lavoratori in movimento. Se è vero che non è raccomandato prendere appunti mentre si guida, un software di trascrizione vocale consente di registrare note, riassumere i punti salienti di una riunione, creare una to-do-list o ricapitolare un brainstorming appena concluso anche mentre si è in viaggio, il tutto con una accuratezza paragonabile o superiore a quella umana.
Questo, se inserito in uno scenario di collaboration, qual è quello nel quale l’ultimo anno ci ha sempre più abituato, facilita la condivisione con dipendenti, collaboratori, membri di un gruppo di lavoro del contenuto di telefonate o riunioni informali.

Speech-to-Text, tra salute e accessibilità

Ci sono altri benefici sui quali vale la pena soffermarsi.
Uno guarda alla salute e all’esperienza dei lavoratori.
Riducendo il tempo dedicato alle attività di digitazione, le soluzioni Speech-to-Text alleviano condizioni lavorative che sono spesso causa di malattie o malesseri, come la sindrome del tunnel carpale o l’affaticamento visivo.
Nel contempo, consentire ai propri collaboratori di lavorare sugli aspetti a maggior valore della trascrizione vocale, può rappresentare una forma di gratificazione e di alleggerimento rispetto ad attività eccessivamente routinarie. 

Un secondo aspetto ha a che fare con l’accessibilità.
L’integrazione della tecnologia di sintesi vocale nelle operation aziendali è un passo verso una maggiore accessibilità. Persone che hanno difficoltà a digitare utilizzando metodi di input convenzionali trovano nello Speech-to-Text una risposta alle loro necessità. Se ben integrato nell’infrastruttura aziendale, lo Speech-to-Text è un tassello importante che lascia a dipendenti e collaboratori la possibilità di scegliere il metodo di input digitale più adatto alle loro esigenze.
Ricordiamo per altro che l’accessibilità digitale è uno degli impegni richiesti, per lo meno ai Governi, dalla Direttiva UE 2016/2102: podcast, video e registrazioni audio devono essere forniti con didascalie o trascrizioni per essere accessibili alle persone con disabilità uditive. Perché non dovrebbero pensarci anche le imprese?

La prossima frontiera dello Speech-to-Text

Se è vero che molto si è fatto in questi anni per far sì che l’accuratezza dei sistemi di trascrizione vocale fossero in grado non solo di raggiungere nuovi livelli di accuratezza, ma anche di comprendere linguaggi specifici di settori o ambiti verticali, ci sono nuove frontiere sulle quali lavorate,
La prima si chiama NLU, Natural Language Understanding, ovvero comprensione del linguaggio naturale. Si tratta di una branca dell’Intelligenza Artificiale, che esplora la possibilità di comprensione e interpretazione del linguaggio umano da parte delle macchine.
Applicato alla tecnologia di riconoscimento vocale, NLU consente non solo di trascrivere il linguaggio umano, ma anche di comprenderne il significato.
Questo apre un mondo di opportunità da esplorare, dalle soluzioni per la traduzione automatica alla realizzazione di riepiloghi di articoli, saggi, documenti, dalla possibilità di classificare i contenuti alla sentiment analysis, analogamente a quanto già accade sui social media. 

È un futuro non così distante, sul quale molti stanno già attivamente lavorando.