Il segreto del riconoscimento vocale di Google: lavora come un cervello

21 Febbraio 201347 commenti

Le tecnologie di riconoscimento vocale come Siri in iOS e Google Voice Search in Android hanno davvero fatto molta strada sin dal primo debutto ufficiale. Tutto è iniziato cercando di dare agli utenti Android ed iPhone 4S (in quel periodo) una nuova tecnologia per poter facilmente interagire con il dispositivo. Anche grandi menti della tecnologia come Steve Wozniak e Bill Gates hanno apprezzato molto le potenzialità di queste tecnologie, capaci di rivoluzionare il modo di interagire con i nostri device. Ma nonostante lo stupore per Siri al lancio di iOS 5 ed iPhone 4S, è stato certamente Google ad alzare la posta in palio.

Il Voice Search di Google è attualmente il migliore del mercato (almeno negli Stati Uniti) secondo gli esperti ma non senza fatica e duro lavoro alle sue spalle.

Ma come funziona e cosa rende Google Voice Search così buono?

L’ispirazione arriverebbe direttamente dalle reti neurali del nostro cervello, secondo le ultime conferme. L’implementazione di queste “reti neurali” partita con Jelly Bean avrebbe permesso di ridurre del 25% gli errori durante il riconoscimento vocale.

“It really is changing the way that people behave…When you talk to Android’s voice recognition software, the spectrogram of what you’ve said is chopped up and sent to eight different computers housed in Google’s vast worldwide army of servers. It’s then processed, using the neural network models built by Vanhoucke and his team.”

In sostanza, con un ampissimo potere di elaborazione cloud, Google è in grado di analizzare un sacco di modelli, che nel caso del riconoscimento vocale vengono chiamati spettrogrammi, ed anche prevedere nuovi modelli proprio come fanno i nostri neuroni, che riescono facilmente a ricollegare i vari modelli, aiutandoci a svolgere semplicemente i nostri compiti.

L’elaborazione procede in vari strati d’elaborazione:

  1. In primo luogo Google cerca i riconoscere le vocali e le consonanti; (livello fondamentale)
  2. Utilizzando quest’ultime riesce a ricomporre intelligentemente le parole per riformulare la frase;
  3. E così via…

Lo stesso approccio viene effettivamente applicato all’analisi delle immagini, in cui si tenta di individuare prima i bordi e poi sempre più verso l’interno.

L’analisi è ovviamente più complessa e difficile da spiegare con semplici parole. Sicuramente è una tecnologia molto affascinante, la quale con lo sviluppo potrebbe presto portare a nuovi orizzonti di interazione con smartphone e tablet.

Vi consiglio la lettura integrale dell’articolo originale su Wired.

 

Loading...
Social Media Auto Publish Powered By : XYZScripts.com