Video: come sbobinare lezioni file audio automaticamente, trascrivere audio in maniera automatica 2024
I computer sono molto intelligenti quando si tratta di cose difficili come giocare a scacchi e compilare dichiarazioni dei redditi, quindi potresti pensare che sarebbero dei frullini in attività "semplici" come riconoscere i volti o capire il linguaggio.
Ma dopo circa 50 anni di tentativi di far fare ai computer queste semplici cose, i programmatori sono giunti alla conclusione che un'abilità non è semplice solo perché gli umani la padroneggiano facilmente. In effetti, il nostro cervello e gli occhi e le orecchie sono pieni zeppi di sofisticate apparecchiature di rilevamento e di elaborazione che continuano a suonare anelli attorno a tutto ciò che possiamo progettare in silicio e metallo.
Noi umani pensiamo che sia semplice capire il discorso perché tutto il duro lavoro è fatto prima che ne prendiamo coscienza. A noi sembra che le parole inglesi siano appena apparse nelle nostre teste non appena le persone aprono la bocca. La natura inconscia (o preconscia) del processo rende doppiamente difficile da imitare i programmatori di computer.
Per avere un'idea del motivo per cui i computer hanno problemi con la parola, pensa a qualcosa che sono molto bravi a riconoscere e capire: numeri di telefono a toni. Quelli blip e bloops sulle linee telefoniche sono molto più significativi per i computer che per le persone. Diverse funzioni importanti rendono i toni del telefono un linguaggio facile per i computer, elencati di seguito. L'inglese, d'altra parte, è completamente diverso.
-
Il vocabolario "touch-tone" contiene solo 12 "parole". Dopo aver conosciuto i toni per le dieci cifre più * e #, ci si trova. L'inglese, d'altra parte, ha centinaia di migliaia di parole.
-
Nessuna delle parole ha lo stesso suono. Sul telefono a toni, il tono "1" è nettamente diverso dal tono "7". Ma l'inglese ha degli omonimi, come nuovi e gnu, e vicino agli omonimi, come più è allegro e la sposiamo. A volte intere frasi suonano allo stesso modo: "I figli sollevano carne" e "I raggi del sole si incontrano", per esempio.
-
Tutti i "diffusori" della lingua dicono le parole allo stesso modo. Premi il pulsante 5 su qualsiasi telefono e ottieni esattamente lo stesso tono. Ma un uomo anziano e una bambina di 10 anni usano toni molto diversi quando parlano; e persone dalla Gran Bretagna, dal Canada e dagli Stati Uniti pronunciano le stesse parole inglesi in modi molto diversi.
-
Il contesto non ha senso. Per il telefono, a 1 è a 1 è a 1. Come si interpreta il tono non dipende dal numero precedente o dal numero successivo. Ma nell'inglese scritto, il contesto è tutto. Ha senso "andare a New York."Ma ha molto meno senso" andare due a New York "o" andare anche a New York. “