G

Simon Poghosyan, Tagapagtatag at CEO ng GSpeech

Simon Poghosyan, Tagapagtatag at CEO ng GSpeech

Simon Poghosyan ay ang tagapagtatag at CEO ng GSpeech, isang web-based na platform ng AI na tumutulong na gawing mas naa-access ang online na content sa pamamagitan ng pag-convert ng text sa natural na tunog na audio sa mahigit 70 wika. Sa background sa VLSI Design at matinding interes sa programming at karanasan ng user, nilikha ni Simon ang GSpeech para pasimplehin ang paraan na makapag-alok ang mga website ng content na pinagana ng boses.

Ngayon, ang GSpeech ay bumubuo ng humigit-kumulang 200 milyong character ng audio bawat buwan at ginagamit sa 70+ na bansa, kasama ang mga nako-customize na audio player nito na naghahatid ng higit sa 200,000 pag-play buwan-buwan. Dahil nalampasan kamakailan ang 1 bilyong character ng audio na nabuo sa kabuuan, ang GSpeech ay patuloy na lumalaki nang mabilis. Ang platform ay idinisenyo upang maging madaling isama — nangangailangan lamang ng isang linya ng code — at sumusuporta sa mga creator, tagapagturo, at negosyo sa paggawa ng kanilang nilalaman na higit na inklusibo at nakakaengganyo.

Ang iyong background sa VLSI Design (Very Large Scale Integration) at maagang karanasan sa programming ay naglatag ng matibay na teknikal na pundasyon. Ano ang nagbigay inspirasyon sa iyong paglipat mula sa microelectronics patungo sa pagbuo ng software na pinapagana ng AI, at paano iyon humantong sa paglikha ng GSpeech?

Ang hilig ko sa paglutas ng problema ay nagsimula noong high school, na hinimok ng pagmamahal sa matematika at pisika. Ang interes na iyon ang nagbunsod sa akin na makakuha ng Bachelor's (2009) at Master's (2011) sa VLSI Design mula sa State Engineering University of Armenia, sa pakikipagtulungan ng Synopsys Armenia. Ang pag-aaral ng physics ay nagsanay sa akin sa katumpakan at analytical na pag-iisip, ngunit noong ikalawang taon ko ay natuklasan ko ang programming — simula sa wikang Pascal — at agad na nahulog ang loob dito. Kukumpletuhin namin ng kaibigan ko ang mga takdang-aralin sa coursework sa sandaling matanggap namin ang mga ito, kahit na may anim na buwan kaming dapat tapusin. Pagkatapos, para masaya, sinimulan naming gawin ang mga takdang-aralin ng ibang mga estudyante.

Ang hilig na ito ay humantong sa akin ng mas malalim sa pagbuo ng software. Nagsimula ako sa paggawa ng website, pagkatapos ay gumawa ako ng sarili kong CMS. Matapos makumpleto ang ilang proyekto sa pag-automate ng proseso at pagdidisenyo ng mga arkitektura ng pamamahala ng data, napagtanto ko kung gaano ko kamahal ang pagbuo ng mga digital na solusyon para sa mga web interface. Sa pamamagitan ng proyektong 2GLux, nakipagtulungan ako kay Edvard Ananyan — tagalikha ng sikat GTranslate serbisyo sa pagsasalin at isang kaibigan sa paaralan mula sa Quantum Gymnasium. Ipinakilala niya sa akin ang WordPress at Joomla ecosystem, at ang konsepto para sa GSpeech nagmula sa kanya. Ang maagang gawaing iyon ay humantong sa unang bersyon ng aming tool, na nagbibigay-daan sa mga user na makinig sa teksto sa isang webpage, na nagtanim ng binhi para sa kung ano ang magiging ganap na tampok na AI platform. Sa pamamagitan ng 2023, itinatag ko Smarts Club LLC upang sukatin GSpeech sa isang pandaigdigang solusyon sa audio ng AI, na sumusuporta sa 70+ wika. Ang Humanity UnionAng papuri ni GSpeech sa papel ng GSpeech sa pagpapahusay sa pagiging naa-access ng kanilang civic engagement platform ay sumasalamin sa aking misyon na tulay ang mga digital divide sa pamamagitan ng AI — isang pananaw na nakaugat sa aking mga unang araw sa programming.

Ang GSpeech ay orihinal na nagsimula bilang isang tool upang suportahan ang mga user na may kapansanan sa paningin. Paano naiimpluwensyahan ng maagang misyon na iyon ang ebolusyon ng platform sa isang kumpletong tampok na AI text-to-speech na solusyon?

Ang pagtuon sa pagiging naa-access ay nagtulak sa pagbuo ng mataas na kalidad, real-time na audio ng AI, pagsasalin sa 70+ na wika, at tuluy-tuloy na pagsasama ng website sa pamamagitan ng isang simpleng snippet ng code. Ang misyon na ito ay humantong sa mga feature tulad ng mga nako-customize na audio player, mga panel ng pagpili ng wika at boses, pag-playback na may kamalayan sa konteksto, mga pag-download ng audio, at mga detalyadong istatistika ng paggamit — kabilang ang bansa, lungsod, data ng device, at analytics ng pag-playback sa paglipas ng panahon — lahat ay idinisenyo upang gawing mas inklusibo at nakakaengganyo ang nilalaman. Pagkatapos magsulat ng mahigit 100,000 linya ng code, inilunsad ko ang GSpeech Cloud Console noong 2023 — isang scalable na solusyon na nagbabalanse ng inclusivity na may advanced na functionality, na nagbibigay-kapangyarihan sa mga negosyo at creator na gawing accessible, multilingual, at interactive ang kanilang content sa buong web.

Ano ang ilan sa mga pinakamalaking teknikal na hamon na iyong hinarap sa panahon ng pagbuo ng GSpeech Cloud Console?

Isa sa mga pinakamalaking hamon sa pagbuo ng GSpeech Cloud Console ay ang pagdidisenyo ng isang scalable na arkitektura para sa real-time, secure, mataas na kalidad na AI audio generation. Nangangailangan ito ng mga makabagong solusyon upang makakuha ng nauugnay na nilalaman mula sa web, magproseso ng audio sa aming mga server, at maiimbak ito sa cloud para sa mabilis, maaasahang paghahatid. Ang pagpapatupad ng matatag na mga hakbang sa seguridad, tulad ng pag-encrypt at mga kontrol sa pag-access, ay kritikal upang maprotektahan ang pabago-bago, nilalamang binuo ng user.

Ang isa pang hadlang ay ang pagpapagana ng real-time na pagsasalin gamit ang mga advanced na neural engine. Kinailangan naming tiyakin na mababa ang latency, tumpak na mga pagsasalin habang bumubuo ng isang madaling gamitin na interface na nagbibigay-daan sa mga user na pumili ng mga wika at gustong mga profile ng boses para sa pag-playback, na binibigyang-priyoridad ang kaginhawahan at pag-personalize ng user. Sa wakas, bumuo kami ng audio template creator wizard na may maraming nako-customize na view ng player, na nagbibigay-daan sa mga user na magdisenyo ng mga natatangi, visually appealing na mga manlalaro na iniayon sa kanilang mga website. Ang pagbabalanse ng flexibility, performance, at kadalian ng paggamit sa mga device ay isang kapakipakinabang na hamon.

Sa real-time na pagsasalin sa 70+ wika at higit sa 230 natural na tunog na boses. Paano mo matitiyak ang kalidad ng boses at mapapanatili ang katumpakan sa iba't ibang hanay ng wika?

Upang mapanatili ang pare-parehong kalidad ng boses, isinasama namin ang maraming advanced na text-to-speech (TTS) na mga modelo na patuloy na ino-optimize at ina-update. Ang mga multilinggwal na makina na ito ay humahawak ng nilalamang halo-halong wika na may mataas na katumpakan. Naglulunsad din kami ng higit sa 100 bagong voice vibes upang bigyan ang mga user ng higit pang mga opsyon na nagpapahayag at natural na tunog. Bawat buwan, ang GSpeech ay bumubuo ng higit sa 200 milyong mga character ng audio, na nagsisilbi sa mga user sa higit sa 70 bansa, kasama ang aming mga online na manlalaro na ginagamit nang higit sa 200,000 beses bawat buwan — at lumalaki. Tinitiyak ng scale na ito ang patuloy na feedback at real-world na pagsubok, na direktang nagpapaalam sa aming pag-tune at mga kontrol sa kalidad.

Maaari mo ba kaming gabayan kung paano ginagamit ng GSpeech ang AI at machine learning para makapaghatid ng parang buhay na voice synthesis? Paano ka nakakasabay sa mabilis na pagsulong sa neural voice technology?

Gumagamit ang GSpeech ng advanced na AI at machine learning, na nagsasama ng maraming makabagong text-to-speech na modelo upang makagawa ng parang buhay na voice synthesis. Ang mga modelong ito, na na-optimize para sa pagiging natural at multilingguwal na suporta, ay nagpoproseso ng mga text input upang makabuo ng mataas na kalidad na audio na may makatotohanang intonasyon at ritmo, kahit na para sa mixed-language na nilalaman. Pinapahusay namin ang karanasan ng user sa pamamagitan ng pag-aalok ng mga nako-customize na istilo ng boses para sa magkakaibang wika. Nagsama rin kami ng mga TTS alias, na nagbibigay-daan sa mga user na tumukoy ng mga custom na panuntunan para sa kung paano nire-render sa audio ang ilang partikular na salita o parirala — halimbawa, pinapalitan ang mga partikular na termino upang makamit ang mas tumpak na pagbigkas o parirala. Upang manatiling napapanahon sa teknolohiya ng neural voice, patuloy naming sinusuri at isinasama ang mga pinakabagong pag-unlad, nakikipagtulungan sa mga pinuno ng industriya, at nagpaplanong bumuo ng mga proprietary na modelo sa hinaharap, na tinitiyak na ang GSpeech ay nananatiling nasa unahan ng pagbabago ng voice synthesis.

Gaano kahalaga ang pag-tune ng boses, kontrol sa pitch, at pag-customize ng playback sa iyong mga user—at ano ang pinagmamalaki mong sitwasyon kung saan talagang kumikinang ang mga feature na ito?

Ang voice tuning, pitch control, at playback customization ay kritikal para sa aming mga user, na nagbibigay-daan sa kanila na lumikha ng natatangi, mataas na kalidad na mga estilo ng boses na iniayon sa kanilang mga partikular na pangangailangan, mula sa mga website ng balita at blog hanggang sa naa-access na nilalaman ng e-learning. Ang patuloy na pagsasama-sama ng higit sa 100 bagong voice vibes ay higit na nagpapahusay dito, na nag-aalok sa mga user ng walang kapantay na kakayahang umangkop upang gumawa ng tunay na natatanging voiceover. Ipinagmamalaki ko ang GSpeech Studio, isang bagong audio editing at generation platform na aking ginagawa. Binibigyang-daan nito ang mga user na lumikha ng maraming audio channel, paghaluin ang mga ito sa background na musika, at i-export ang mga pinakintab na voiceover, na nagbibigay-kapangyarihan sa mga creator na makagawa ng propesyonal na antas ng audio para sa magkakaibang mga application. Ang liham ng isang estudyanteng may kapansanan sa paningin, na nagpapasalamat sa GSpeech para sa pagpapagana ng independiyenteng pag-aaral sa pamamagitan ng customized na audio, ay lubos na nakaantig sa akin. Ipinapakita ng use case na ito kung paano ginagawang naa-access at transformative ng mga feature na ito ang content, isang layunin na itinaguyod ko simula pa noong mga araw ng programming.

Nag-aalok ang GSpeech ng tuluy-tuloy na pagsasama sa WordPress, Shopify, Wix, at higit pa. Ano ang naging diskarte mo para gawing plug-and-play ang platform para sa mga creator at negosyo sa iba't ibang ecosystem?

Ang aming diskarte para sa mga plug-and-play na integration ng GSpeech sa mga platform tulad ng WordPress, Shopify, at Wix ay nakatuon sa pagiging simple, compatibility, at scalability. Nakabuo kami ng magaan, modular na mga plugin at mga snippet ng code na nagsasama nang walang putol, na nangangailangan ng kaunting pag-setup—kadalasan ay ilang pag-click lang. Nangangahulugan ito na ang libu-libong mga artikulo at mga dynamic na bloke ng nilalaman ay maaaring agad na makakuha ng suporta sa boses — nang walang manu-manong pagsisikap. Nag-aalok kami ng lubos na flexible, magandang idinisenyong mga manlalaro na umaangkop sa mga device, kabilang ang mga mobile, tablet, at desktop. Ang aming mga manlalaro ay hindi lamang nako-customize ngunit na-optimize din para sa pagiging naa-access at pakikipag-ugnayan ng user. Para sa WordPress, na-embed namin ang GSpeech cloud dashboard nang direkta sa admin panel sa pamamagitan ng aming plugin, na nag-streamline ng pamamahala para sa mga user. Ang detalyadong dokumentasyon at intuitive na mga dashboard ay gumagabay sa mga hindi teknikal na user sa pamamagitan ng pag-install at pagpapasadya. Tinitiyak ng regular na pagsubok ang pare-parehong performance sa iba't ibang ecosystem, na nagbibigay ng kapangyarihan sa mga creator at negosyo na magdagdag ng text-to-speech na pinapagana ng AI nang walang kahirap-hirap.

Sa pagbabalik-tanaw sa paglalakbay mula 2012 hanggang ngayon, ano ang naging pinakamalaking milestone para sa iyo nang personal o propesyonal sa pagbuo ng GSpeech?

Ang pinakamalaking milestone para sa GSpeech ay ang pagbuo ng 1 bilyong character ng mataas na kalidad na AI audio, na nagpapakita ng aming pandaigdigang epekto sa pagiging naa-access. Parehong makabuluhan ang feedback na natanggap namin mula sa mga organisasyon tulad ng Humanity Union, na pinuri ang GSpeech para sa pagpapahusay ng kanilang social responsibility platform, at mula sa mga may-ari ng blog na tinawag itong "game-changer" para sa pakikipag-ugnayan ng user. Higit sa 110 five-star na review sa mga platform tulad ng WordPress at AppSumo nitong mga nakaraang buwan ay sumasalamin sa lumalagong tiwala na ito.

Ang GSpeech ay aktibong ginagamit na rin ngayon ng Namangan regional statistics department sa Uzbekistan — isang institusyon ng gobyerno na may makabuluhang trapiko at kakayahang makita sa antas ng bansa. Ang pagkakita sa isang pampublikong katawan na gumagamit ng aming teknolohiya nang napakalawak ay naging isang makabuluhang milestone at isang malakas na tanda ng pagtitiwala sa aming solusyon.

Bilang isang Kristiyano at isang taong naglilingkod sa simbahan ng Armenian, sinisikap ko ring suportahan ang iba pang mga inisyatiba na batay sa pananampalataya hangga't maaari. Madalas akong nag-aalok ng GSpeech nang walang bayad sa mga Kristiyanong website bilang isang paraan upang makatulong sa pagpapalaganap ng kanilang mensahe nang mas epektibo at gawing mas naa-access ang Kasulatan sa pamamagitan ng audio. Ito ay ang aking maliit na kontribusyon sa isang bagay na mas malaki. Kasabay nito, ikinararangal kong magtrabaho kasama ang mga dedikadong ministeryo tulad ng Ang Cord — isang Messianic na kongregasyon at pinahahalagahang kliyente ng GSpeech — na ang misyon at nilalaman ay nagpapakita ng kapangyarihan ng Banal na Kasulatan sa pagkilos.

Ang mga sandaling ito — kapag ang teknolohiya ay naging tulay para sa pananampalataya, pag-unawa, at pagsasama — ipaalala sa akin kung bakit namin binuo ang GSpeech sa unang lugar.

Anong papel ang nakikita mong gumaganap ang GSpeech sa hinaharap ng digital media, lalo na habang nagiging mas nangingibabaw ang audio content at mga interface ng boses?

Naiisip ko ang GSpeech bilang nangunguna sa paggawa ng digital media na mas naa-access at nakakaengganyo sa pamamagitan ng pagpapagana ng AI-powered voice access sa web. Ang aming layunin ay baguhin ang buong karanasan sa online, upang ang mga website ay maging natural na voice-interactive, inclusive, at multilingual bilang default. Sa isang linya lamang ng code, ang mga may-ari ng site ay maaaring gumawa ng libu-libong mga artikulo sa tinig na nilalaman. Sa hinaharap, ginagawa namin ang GSpeech Studio sa isang malakas at natatanging platform para sa pagbuo at pag-edit ng audio, na nagbibigay-daan sa mga user na lumikha ng maraming layer na nilalaman ng boses na may background na musika, mga epekto, at tumpak na pag-tune. Gusto naming gawing tunay na naririnig, intuitive, at naa-access ng lahat ang web.

Ang GSpeech ay inilunsad kamakailan sa AppSumo at nakakuha na ng halos perpektong rating mula sa mga naunang nag-adopt. Ano ang ibig sabihin sa iyo ng tugon mula sa komunidad ng AppSumo, at paano mo pinaplanong buuin ang momentum na ito sa pasulong?

Ipinakilala ng paglulunsad ng AppSumo ang GSpeech sa milyun-milyon, at ang halos perpektong rating nito ay hindi kapani-paniwalang nagpapatunay. Ang mga user, tulad ng mga nagpapatakbo ng mga online na kurso, ay pinupuri ang aming mga intuitive na tool at tumutugon na suporta, na nagpaparinig ng feedback mula sa Humanity Union. Tinawag ng isang may-ari ng blog ang aming mga boses na "tunay na nakakaengganyo" at ang mga pagsasalin ay "kahanga-hanga." Kinukumpirma ng kanilang positibong feedback ang halaga ng aming text-to-speech na solusyon na pinapagana ng AI at pinasisigla ang aking hilig para sa proyekto. Ang pagsuporta sa mga kliyente sa panahon ng paglulunsad ay nagdulot din ng mga bagong ideya, partikular para sa GSpeech Studio, na inspirasyon ng mga kahilingan ng user para sa advanced na audio editing at mga feature sa pag-export. Sa pasulong, plano kong buuin ang momentum na ito sa pamamagitan ng aktibong pakikinig sa aming komunidad, pagsasama ng kanilang feedback, at pagbuo ng mga makabagong feature para mapahusay ang pagiging naa-access at pakikipag-ugnayan, na tinitiyak na patuloy na uunlad ang GSpeech bilang isang tool sa pagbabago para sa mga creator at negosyo.

Panghuli, anong payo ang ibibigay mo sa mga batang developer o negosyante na gustong bumuo ng naa-access, mga tool na pinapagana ng AI sa mabilis na gumagalaw na tech landscape ngayon?

Sa mga batang developer at negosyante, ang payo ko ay ibuhos ang iyong puso sa iyong trabaho at tukuyin ang isang tunay na problema kung saan maaari kang mag-alok ng natatangi, matalinong solusyon. Magsimula sa maliit, gumawa ng matatag na hakbang pasulong, at makinig nang mabuti sa feedback ng customer—gagabayan nila ang iyong landas. Tratuhin ang iyong mga user bilang mga pinagkakatiwalaang kaibigan, ibigay ang lahat, at manatiling matiyaga. Yakapin ang mga teknolohiya ng AI bilang makapangyarihang mga kaalyado; kapag ginamit nang matalino, pinalalakas ng mga ito ang iyong kakayahang lumikha ng mga maimpluwensyang, naa-access na mga tool. Bumuo nang may hilig, pagpupursige, at pangako sa paggawa ng pagbabago, at gagawa ka ng mga solusyon na talagang mahalaga.

Salamat sa Antoine Tardif para sa panayam. Maaari mong basahin ang buong panayam dito: magkaisa.ai.

🎬 Mga video

🎬 GSpeech - Video Tour
🎬 Tuklasin ang GSpeech: I-transform ang Text sa Audio gamit ang AI Magic!
Ilipat ang iyong nilalaman sa susunod na antas! Subukan ang GSpeech ngayon!
Kumuha ng GSpeech