![Her er, hvordan Android 10's Live Caption faktisk fungerer - Nyheder Her er, hvordan Android 10's Live Caption faktisk fungerer - Nyheder](https://a.23rdpta.org/news/heres-how-android-10s-live-caption-actually-works.jpg)
Indhold
Live Caption er en af de fedeste Android-funktioner endnu, ved hjælp af en-maskin-maskinlæring til at generere billedtekster til lokale videoer og webklip.
Google har offentliggjort et blogindlæg, der præciserer nøjagtigt, hvordan denne smarte funktion fungerer, og den består faktisk af tre maskinindlæringsmodeller på enheden til at starte med.
Der er en tilbagevendende neurale netværkssekvenstransduktion (RNN-T) -model til taleegenkendelse i sig selv, men Google bruger også et tilbagevendende neuralt netværk til at forudsige tegnsætning.
Den tredje maskinindlæringsmodel på enheden er et indviklet neuralt netværk (CNN) til lydbegivenheder, såsom fuglekvitrende, klappende mennesker og musik. Google siger, at denne tredje maskinlæringsmodel er afledt af sit arbejde med Live Transcribe-tilgængelighedsappen, som er i stand til at transkribere tale- og lydbegivenheder.
Reducering af virkningen af Live Caption
Virksomheden siger, at det er truffet en række forholdsregler for at reducere Live Captions batteriforbrug og krav til ydelse.For det første kører den fulde automatiske talegenkendelses (ASR) -motor kun, når tale faktisk registreres, i modsætning til konstant at køre i baggrunden.
”F.eks. Når musik registreres, og der ikke er tale i lydstrømmen, vises etiketten på skærmen, og ASR-modellen bliver aflæst. ASR-modellen indlæses kun tilbage i hukommelsen, når der igen er tale i lydstrømmen, ”forklarer Google i sit blogindlæg.
Google har også brugt teknikker såsom beskæring af neurale forbindelser (skære ned på talemodellen), reducere strømforbruget med 50% og lade Live Caption køre kontinuerligt.
Google forklarer, at talegenkendelsesresultaterne opdateres et par gange hvert sekund, når billedteksten dannes, men tegnsætning forudsigelse er anderledes. Søgegiganten siger, at den leverer tegnsætningsprognoser “på halen af teksten fra den senest anerkendte sætning” for at reducere ressourcebehovet.
Live Caption er nu tilgængelig i Google Pixel 4-serien, og Google siger, at den snart vil være tilgængelig på Pixel 3-serien og andre enheder. Virksomheden siger, at det også arbejder på support til andre sprog og bedre support til indhold med flere højttalere.