Ang Text-to-Speech, na tinatawag ding TTS, ay isang uri ng suportang teknolohiya na nagdudulot ng kagaanan at kaginhawaan sa buhay. Binabasa ng system ang mga digital na teksto nang malakas at sapat na malinaw para maunawaan ng isang tao. Ang TTS ay kilala rin bilang read-aloud na teknolohiya, malawak na tinatanggap para sa kakayahang umangkop nito. Ito ay isang solong pagpindot, kung saan ang teksto ng website ay nagko-convert sa audio.
Lumalawak ang system sa lahat ng device gaya ng mga smartphone, laptop, desktop, at tablet, na itinuturing na perpekto para sa mga bata, pampublikong may edad na higit sa 20, at mga taong may mga kapansanan. Ang pakikibaka sa pagbabasa at pagbibigay-diin sa mga elektronikong device ay nawala na sa TTS habang pinapataas ang focus, pag-aaral, at ang ugali ng pagbabasa online sa pamamagitan ng pakikinig. Kaya kung ikaw ay isang blogger, mambabasa, o may-ari ng website, ang TTS ay software na magpapalawak ng iyong abot-tanaw ng kaalaman. Ngunit ano ang mga pakinabang ng pagkakaroon ng boses para sa lahat, walang limitasyon, at walang hangganan? Ito ay pinaghiwalay ayon sa mga gumagamit dahil sila ang taong gagamit ng mga serbisyo.
Ang pagpayag sa mga tao na makipag-usap sa mga makina ay isang matagal nang pangarap ng pakikipag-ugnayan ng tao-computer. Ang kakayahan ng mga computer na maunawaan ang natural na pananalita ay nabago sa mga nakaraang taon sa pamamagitan ng paggamit ng mga malalim na neural network (hal., Google Voice Search). Gayunpaman, ang pagbuo ng pagsasalita gamit ang mga computer — isang proseso na karaniwang tinutukoy bilang speech synthesis o text-to-speech (TTS) — ay higit sa lahat ay nakabatay sa tinatawag na magkakadugtong na TTS, kung saan ang isang napakalaking database ng mga maikling speech fragment ay naitala mula sa iisang tagapagsalita at pagkatapos ay muling pinagsama upang makabuo ng kumpletong mga pagbigkas. Ginagawa nitong mahirap na baguhin ang boses (halimbawa, lumipat sa ibang speaker, o binabago ang diin o emosyon ng kanilang pananalita) nang hindi nagre-record ng isang buong bagong database.
Ang proseso ng TTS ay nagsasangkot ng ilang mga yugto:
Mayroong ilang mga uri ng teknolohiya ng TTS, kabilang ang:
Nag-aalok ang GSpeech ng maraming feature, kabilang ang online, SaaS, on-premise na Text-to-Speech (TTS) na mga solusyon para sa iba't ibang uri ng source tulad ng mga website, mobile app, e-book, e-learning material, mga dokumento, pang-araw-araw na karanasan sa customer, transportasyon karanasan, at marami pang iba. Paano nakikinabang ang isang negosyo, organisasyon, at mga publisher na nagsasama ng teknolohiya ng TTS.
Ang teknolohiya ng TTS ay nagbibigay ng higit na accessibility para sa mga indibidwal na may kapansanan sa paningin, dyslexia, o kahirapan sa pagbabasa, na nagpapahintulot sa kanila na ma-access ang impormasyon at makipag-usap nang mas madali.
Sa pamamagitan ng pagbibigay ng alternatibong paraan para makonsumo ng mga user ang iyong content, maaari mong pagbutihin ang search engine optimization (SEO) ng iyong WordPress website. Ito ay partikular na mahalaga para sa mga user na umaasa sa mga screen reader upang mag-navigate sa web.
Maaaring mapahusay ng teknolohiya ng TTS ang karanasan ng gumagamit sa pamamagitan ng pagbibigay ng mas natural at madaling gamitin na paraan ng pakikipag-ugnayan sa mga device, na binabawasan ang pangangailangan para sa manu-manong pag-type o pagbabasa.
Ang teknolohiya ng TTS ay maaaring magbigay ng 24/7 na suporta sa customer, pagsagot sa mga madalas itanong at pagbibigay ng impormasyon sa mga customer sa mas mahusay at epektibong paraan.
Maaaring pataasin ng teknolohiya ng TTS ang pagiging produktibo sa pamamagitan ng pag-automate ng mga gawain tulad ng pagpasok ng data, transkripsyon, at pagbabasa, na nagbibigay ng oras para sa mas mahahalagang gawain.
Maaaring suportahan ng teknolohiya ng TTS ang maraming wika, na ginagawa itong isang mahalagang tool para sa mga negosyo at organisasyong nagpapatakbo sa buong mundo.
Maaaring mapabuti ng teknolohiya ng TTS ang pag-unawa sa pagbabasa sa pamamagitan ng pagpayag sa mga user na makinig sa teksto habang sinusundan ang nakasulat na salita, na ginagawang mas madaling maunawaan ang kumplikadong impormasyon.
Maaaring bawasan ng teknolohiya ng TTS ang pagkapagod at pagkapagod sa mata sa pamamagitan ng pagbibigay ng alternatibo sa pagbabasa at pag-type, na ginagawa itong isang mahalagang tool para sa mga indibidwal na gumugugol ng mahabang oras sa harap ng mga screen.
Maaaring pataasin ng teknolohiya ng TTS ang pakikipag-ugnayan sa pamamagitan ng pagbibigay ng mas interactive at nakaka-engganyong karanasan, na ginagawa itong isang mahalagang tool para sa mga application na pang-edukasyon at entertainment.
Ang teknolohiya ng TTS ay maaaring magbigay ng mapagkumpitensyang kalamangan sa pamamagitan ng pag-aalok ng natatangi at makabagong paraan ng pakikipag-ugnayan sa mga device, pagtatakda ng iyong produkto o serbisyo na bukod sa kompetisyon.
Ito ay humantong sa isang malaking demand para sa parametric TTS, kung saan ang lahat ng impormasyong kinakailangan upang makabuo ng data ay nakaimbak sa mga parameter ng modelo, at ang mga nilalaman at katangian ng pagsasalita ay maaaring kontrolin sa pamamagitan ng mga input sa modelo. Sa ngayon, gayunpaman, ang parametric TTS ay may posibilidad na maging mas natural kaysa sa concatenative. Ang mga kasalukuyang parametric na modelo ay karaniwang gumagawa ng mga audio signal sa pamamagitan ng pagpasa ng kanilang mga output sa pamamagitan ng mga signal processing algorithm na kilala bilang mga vocoder.
Binabago ng WaveNet ang paradigm na ito sa pamamagitan ng direktang pagmomodelo ng raw waveform ng audio signal, isang sample sa isang pagkakataon. Pati na rin ang pagbibigay ng mas natural na tunog ng pananalita, ang paggamit ng mga raw waveform ay nangangahulugan na ang WaveNet ay maaaring magmodelo ng anumang uri ng audio, kabilang ang musika.
Karaniwang iniiwasan ng mga mananaliksik ang pagmomodelo ng hilaw na audio dahil napakabilis nito: karaniwang 16,000 sample bawat segundo o higit pa, na may mahalagang istraktura sa maraming oras-scale. Ang pagbuo ng isang ganap na autoregressive na modelo, kung saan ang hula para sa bawat isa sa mga sample na iyon ay naiimpluwensyahan ng lahat ng nauna (sa statistics-speak, ang bawat predictive distribution ay nakakondisyon sa lahat ng nakaraang obserbasyon), ay malinaw na isang mapaghamong gawain.
Gayunpaman, PixelRNN at PixelCNN ang mga modelo, na nai-publish kanina, ay nagpakita na posibleng makabuo ng mga kumplikadong natural na larawan hindi lamang isang pixel sa isang pagkakataon, ngunit isang color-channel sa isang pagkakataon, na nangangailangan ng libu-libong hula sa bawat larawan. Naging inspirasyon ito sa amin na iakma ang aming two-dimensional na PixelNets sa isang one-dimensional na WaveNet.
Ipinapakita ng animation sa itaas kung paano nakaayos ang isang WaveNet. Ito ay isang ganap na convolutional neural network, kung saan ang mga convolutional layer ay may iba't ibang dilation factor na nagbibigay-daan sa receptive field nito na lumago nang exponential nang may lalim at sumasaklaw sa libu-libong timestep.
Sa oras ng pagsasanay, ang mga sequence ng input ay mga tunay na waveform na naitala mula sa mga nagsasalita ng tao. Pagkatapos ng pagsasanay, maaari naming i-sample ang network upang makabuo ng mga sintetikong pananalita. Sa bawat hakbang habang nagsa-sample ay kinukuha ang isang value mula sa probability distribution na kinalkula ng network. Ang halagang ito ay ibabalik sa input at isang bagong hula para sa susunod na hakbang ay ginawa. Ang pagbuo ng mga sample sa isang hakbang sa isang pagkakataon tulad nito ay computationally mahal, ngunit nakita namin na ito ay mahalaga para sa pagbuo ng kumplikado, makatotohanang tunog na audio.
Nagtraining kami WaveNet gamit ang ilan sa mga TTS dataset ng Google para masuri namin ang performance nito. Ang sumusunod na figure ay nagpapakita ng kalidad ng WaveNets sa isang sukat mula 1 hanggang 5, kumpara sa kasalukuyang pinakamahusay na TTS system ng Google (parametriko at magkakadugtong), at sa pagsasalita ng tao gamit ang Mean Opinion Scores (MOS). Ang MOS ay isang karaniwang sukatan para sa mga pansariling pagsusuri sa kalidad ng tunog, at nakuha sa mga blind test na may mga paksa ng tao (mula sa mahigit 500 rating sa 100 pagsubok na mga pangungusap). Gaya ng nakikita natin, binabawasan ng WaveNets ang agwat sa pagitan ng state of the art at performance sa antas ng tao ng higit sa 50% para sa parehong US English at Mandarin Chinese.
Para sa parehong Chinese at English, ang kasalukuyang TTS system ng Google ay itinuturing na isa sa mga pinakamahusay sa buong mundo, kaya ang pagpapabuti sa parehong gamit ang isang modelo ay isang malaking tagumpay.
Ang GSpeech ay may AI voice synthesis algorithm, na ilan sa mga pinaka-advanced at makatotohanan sa negosyo. Karamihan sa mga voice synthesizer (kabilang ang Apple's Siri) ay gumagamit ng tinatawag na concatenative synthesis, kung saan ang isang programa ay nag-iimbak ng mga indibidwal na pantig — mga tunog gaya ng “ba,” “sht,” at “oo” — at pinagsasama-sama ang mga ito sa mabilisang pagbuo ng mga salita at pangungusap . Ang pamamaraang ito ay naging maganda sa paglipas ng mga taon, ngunit ito ay tahimik pa rin.
Ang WaveNet, sa paghahambing, ay gumagamit ng machine learning upang makabuo ng audio mula sa simula. Talagang sinusuri nito ang mga waveform mula sa isang malaking database ng pagsasalita ng tao at muling nililikha ang mga ito sa bilis na 24,000 sample bawat segundo. Kasama sa resulta ang mga boses na may mga subtlety tulad ng mga lip smack at accent. Noong unang inihayag ng Google ang WaveNet noong 2016, masyadong masinsinang computation na magtrabaho sa labas ng mga kapaligiran ng pananaliksik, ngunit mula noon ay makabuluhang pinaliit ito, na nagpapakita ng malinaw na pipeline mula sa pananaliksik patungo sa produkto.