Njia Muhimu za Kuchukua
- Kampuni zinakimbizana kutafuta njia za kufanya usemi unaozalishwa na kompyuta kuwa wa kweli zaidi.
- NVIDIA ilizindua zana hivi majuzi zinazoweza kunasa sauti ya usemi asilia kwa kukuruhusu kufunza AI kwa sauti yako mwenyewe.
- Kiimbo, hisia, na muziki ni vipengele ambavyo sauti za kompyuta bado hazina, mtaalamu mmoja anasema.
Hotuba inayozalishwa na kompyuta hivi karibuni inaweza kusikika kama ya kibinadamu zaidi.
Kiunda sehemu za kompyuta NVIDIA ilizindua hivi majuzi zana zinazoweza kunasa sauti ya usemi asilia kwa kukuruhusu kufunza AI kwa sauti yako. Programu pia inaweza kutoa maneno ya mzungumzaji mmoja kwa kutumia sauti ya mtu mwingine. Ni sehemu ya msukumo unaoendelea kufanya usemi wa kompyuta kuwa wa kweli zaidi.
"Teknolojia ya hali ya juu ya AI ya sauti inawaruhusu watumiaji kuzungumza kwa kawaida, ikichanganya maswali mengi hadi sentensi moja na kuondoa hitaji la kurudia maelezo kutoka kwa swali asili kila mara," Michael Zagorsek, afisa mkuu wa uendeshaji wa kampuni ya utambuzi wa usemi ya SoundHound, aliiambia Lifewire katika mahojiano ya barua pepe.
"Ongezeko la lugha nyingi, sasa zinapatikana kwenye mifumo mingi ya AI ya sauti, hufanya visaidizi vya sauti dijitali kufikiwa katika jiografia zaidi na kwa watu wengi zaidi," aliongeza.
Robospeech Rising
Alexa za Amazon na Siri za Apple zinasikika vizuri zaidi kuliko hotuba ya kompyuta ya hata miaka kumi iliyopita, lakini hazitakosewa kuwa na sauti halisi za binadamu hivi karibuni.
Ili kufanya matamshi ya bandia yasikike ya asili zaidi, timu ya watafiti ya NVIDIA ya kubadilisha maandishi hadi hotuba ilitengeneza muundo wa RAD-TTS. Mfumo huu unaruhusu watu binafsi kufundisha muundo wa maandishi-hadi-hotuba (TTS) kwa sauti zao, ikiwa ni pamoja na mwendo, sauti, timbre na vipengele vingine.
Kampuni ilitumia mtindo wake mpya kutengeneza simulizi zaidi ya sauti yenye sauti ya mazungumzo kwa mfululizo wake wa video wa I Am AI.
"Kwa kiolesura hiki, mtayarishaji wetu wa video anaweza kujirekodi akisoma hati ya video na kisha kutumia muundo wa AI kubadilisha hotuba yake kuwa sauti ya msimulizi wa kike. Kwa kutumia simulizi hili la msingi, mtayarishaji basi angeweza kuelekeza AI kama mwigizaji wa sauti kubadilisha hotuba iliyosasishwa ili kusisitiza maneno mahususi na kurekebisha mwendo wa masimulizi ili kueleza vyema sauti ya video," NVIDIA iliandika kwenye tovuti yake.
Ngumu Kuliko Inavyosikika
Kutengeneza matamshi yanayotokana na kompyuta kuwa ya asili ni tatizo gumu, wanasema wataalamu.
"Unahitaji kurekodi mamia ya saa za sauti ya mtu ili kuunda toleo lake la kompyuta," Nazim Ragimov, Mkurugenzi Mtendaji wa kampuni ya programu ya maandishi kwa hotuba Kukarella, aliiambia Lifewire katika mahojiano ya barua pepe. "Na rekodi lazima iwe ya ubora wa juu, iliyorekodiwa katika studio ya kitaaluma. Kadiri saa nyingi za ubora zinavyopakiwa na kuchakatwa, ndivyo matokeo yanavyokuwa bora."
Nakala-kwa-hotuba inaweza kutumika katika michezo ya kubahatisha, kusaidia watu wenye ulemavu wa sauti, au kuwasaidia watumiaji kutafsiri kati ya lugha kwa sauti zao wenyewe.
Kiimbo, hisia, na muziki ni vipengele ambavyo sauti za kompyuta bado hazina, Ragimov alisema.
Ikiwa AI inaweza kuongeza viungo hivi vinavyokosekana, hotuba inayozalishwa na kompyuta "haitatofautishwa na sauti za waigizaji halisi," aliongeza. "Hiyo ni kazi inayoendelea. Sauti zingine zitaweza kushindana na waandaji wa redio. Hivi karibuni utaona sauti zinazoweza kuimba na kusoma vitabu vya sauti."
Teknolojia ya usemi inazidi kuwa maarufu katika biashara mbalimbali.
"Sekta ya magari imekuwa mtumiaji wa hivi majuzi wa AI ya sauti kama njia ya kuunda hali salama na iliyounganishwa zaidi ya udereva," Zagorsek alisema.
"Tangu wakati huo, visaidizi vya sauti vimeenea kila mahali kwani chapa zinatafuta njia za kuboresha hali ya utumiaji kwa wateja na kukidhi mahitaji ya mbinu rahisi, salama, zinazofaa zaidi, bora na za usafi za kuwasiliana na bidhaa na huduma zao."
Kwa kawaida, AI ya sauti hubadilisha maswali kuwa majibu katika mchakato wa hatua mbili unaoanza kwa kunukuu usemi hadi maandishi kwa kutumia utambuzi wa usemi otomatiki (ASR) na kisha kulisha maandishi hayo katika muundo wa uelewaji wa lugha asilia (NLU).
Mbinu ya SoundHound inachanganya hatua hizi mbili hadi mchakato mmoja wa kufuatilia matamshi katika muda halisi. Kampuni inadai mbinu hii inaruhusu wasaidizi wa sauti kuelewa maana ya hoja za mtumiaji, hata kabla ya mtu kumaliza kuzungumza.
Maendeleo yajayo katika hotuba ya kompyuta, ikiwa ni pamoja na upatikanaji wa chaguo mbalimbali za muunganisho kutoka kwa iliyopachikwa pekee (hakuna muunganisho wa wingu unaohitajika) hadi mseto (iliyopachikwa pamoja na wingu) na wingu pekee "yatatoa chaguo zaidi kwa kampuni katika tasnia mbalimbali. kwa upande wa gharama, faragha, na upatikanaji wa nguvu ya usindikaji, " Zagoresk alisema.
NVIDIA alisema habari zake miundo ya AI inapita zaidi ya kazi ya sauti.
"Nakala-kwa-hotuba inaweza kutumika katika michezo ya kubahatisha, kusaidia watu wenye ulemavu wa sauti, au kuwasaidia watumiaji kutafsiri kati ya lugha kwa sauti zao," kampuni iliandika. "Inaweza hata kuunda upya uigizaji wa waimbaji mashuhuri, ikilinganisha sio tu na mdundo wa wimbo bali pia hisia za hisia nyuma ya sauti."