Hivi karibuni, Huenda Usijue Unazungumza na Kompyuta

Orodha ya maudhui:

Hivi karibuni, Huenda Usijue Unazungumza na Kompyuta
Hivi karibuni, Huenda Usijue Unazungumza na Kompyuta
Anonim

Njia Muhimu za Kuchukua

  • Siku inakaribia ambapo hutaweza kutofautisha hotuba inayotolewa na kompyuta kutokana na ukweli.
  • Google hivi majuzi ilizindua LaMDA, muundo unaoweza kuruhusu mazungumzo ya asili zaidi.
  • Kuzalisha matamshi yanayofanana na ya binadamu pia kunahitaji nguvu nyingi za kuchakata.
Image
Image

Kwa sasa, ni rahisi kujua unapozungumza na kompyuta, lakini hilo linaweza kubadilika hivi karibuni kutokana na maendeleo ya hivi majuzi katika AI.

Google ilizindua LaMDA hivi majuzi, muundo wa majaribio ambao kampuni inadai kuwa unaweza kuongeza uwezo wa visaidizi vyake vya mazungumzo vya AI na kuruhusu mazungumzo zaidi ya asili. LaMDA inalenga hatimaye kuzungumza kwa kawaida kuhusu karibu jambo lolote bila aina yoyote ya mafunzo ya awali.

Ni mojawapo ya idadi inayoongezeka ya miradi ya AI ambayo inaweza kukufanya ujiulize ikiwa unazungumza na binadamu.

"Kadirio langu ni kwamba ndani ya miezi 12 ijayo, watumiaji wataanza kuonyeshwa na kuzoea sauti hizi mpya, zenye hisia zaidi," James Kaplan, Mkurugenzi Mtendaji wa MeetKai, msaidizi wa sauti pepe wa AI na utafutaji. injini, ilisema katika mahojiano ya barua pepe.

"Hili likitokea, hotuba iliyosanifiwa ya leo itasikika kwa watumiaji kama vile hotuba ya miaka ya mapema ya 2000 inavyosikika kwetu leo."

Visaidizi vya Sauti Vyenye Tabia

LaMDA ya Google imeundwa kwa Transformer, usanifu wa mtandao wa neva uliovumbuliwa na Utafiti wa Google. Tofauti na miundo mingine ya lugha, LaMDA ya Google ilifunzwa kuhusu mazungumzo halisi.

Sehemu ya changamoto ya kutoa hotuba ya sauti ya asili ya AI ni hali ya wazi ya mazungumzo, Eli Collins wa Google aliandika kwenye chapisho la blogu.

Image
Image

"Gumzo na rafiki kuhusu kipindi cha televisheni linaweza kubadilika na kuwa mjadala kuhusu nchi ambapo kipindi hicho kilirekodiwa kabla ya kusuluhisha mjadala kuhusu vyakula bora vya kieneo nchini humo," aliongeza.

Mambo yanaenda kasi kwa matamshi ya roboti. Eric Rosenblum, mshirika mkuu katika Tsingyuan Ventures, ambayo inawekeza katika mazungumzo ya AI, alisema kuwa baadhi ya matatizo ya kimsingi katika usemi unaosaidiwa na kompyuta yanatatuliwa kwa hakika.

Kwa mfano, kiwango cha usahihi katika kuelewa usemi tayari ni cha juu sana katika huduma kama vile manukuu yanayofanywa na programu ya Otter.ai au maelezo ya matibabu yaliyochukuliwa na DeepScribe.

"Mpaka unaofuata, ingawa, ni mgumu zaidi," aliongeza.

"Kudumisha uelewaji wa muktadha, ambalo ni tatizo linalopita zaidi ya kuchakata lugha asilia, na huruma, kama vile kompyuta zinazowasiliana na wanadamu zinahitaji kuelewa kufadhaika, hasira, kukosa subira, n.k. Masuala haya yote mawili yanashughulikiwa, lakini yote hayaridhishi."

Mitandao ya Neural Ndio Ufunguo

Ili kuzalisha sauti zinazofanana na maisha, makampuni yanatumia teknolojia kama vile mitandao ya kina ya neva, aina ya kujifunza kwa mashine ambayo huainisha data kupitia tabaka, Matt Muldoon, rais wa Amerika Kaskazini katika ReadSpeaker, kampuni inayotengeneza programu ya maandishi hadi usemi, alisema katika mahojiano ya barua pepe.

"Safu hizi huboresha mawimbi, na kuzipanga katika uainishaji changamano zaidi," aliongeza. "Matokeo yake ni usemi wa syntetisk unaosikika kwa njia isiyo ya kawaida kama mwanadamu."

Teknolojia nyingine inayoendelezwa ni Prosody Transfer, ambayo inahusisha kuchanganya sauti ya kutoka maandishi hadi hotuba na mtindo wa kuzungumza wa nyingine, Muldoon alisema. Pia kuna ujifunzaji wa kuhamisha, ambao hupunguza kiasi cha data ya mafunzo inayohitajika ili kutoa sauti mpya ya neural kutoka kwa matini hadi usemi.

Kaplan alisema kutoa matamshi yanayofanana na ya binadamu pia kunahitaji nguvu nyingi za kuchakata. Kampuni zinatengeneza vichaguzi vya neural, ambavyo ni moduli maalum zinazofanya kazi pamoja na vichakataji vya kawaida.

"Hatua inayofuata katika hili itakuwa ni kuweka chipsi hizi kwenye maunzi madogo, kwani kwa sasa inafanywa tayari kwa kamera wakati AI ya kuona inahitajika," aliongeza. "Si muda mrefu kabla ya aina hii ya uwezo wa kompyuta kupatikana kwenye vipokea sauti vyenyewe."

Changamoto moja ya kukuza usemi unaoendeshwa na AI ni kwamba kila mtu anazungumza tofauti, kwa hivyo kompyuta huwa na wakati mgumu kutuelewa.

"Fikiria lafudhi ya Georgia dhidi ya Boston dhidi ya North Dakota, na ikiwa Kiingereza ndiyo lugha yako ya msingi au la, " Monica Dema, anayefanya kazi katika uchanganuzi wa utafutaji wa kutamka katika MDinc, alisema katika barua pepe. "Kwa kufikiria kimataifa, ni gharama kufanya hivi kwa mikoa yote ya Ujerumani, Uchina, na India, lakini hiyo haimaanishi kuwa haijafanywa au haiwezi kufanywa."

Ilipendekeza: