AI Sasa Ninaweza Kuelewa Video Zako Kwa Kuzitazama

Orodha ya maudhui:

AI Sasa Ninaweza Kuelewa Video Zako Kwa Kuzitazama
AI Sasa Ninaweza Kuelewa Video Zako Kwa Kuzitazama
Anonim

Njia Muhimu za Kuchukua

  • Watafiti wanasema wanaweza kufundisha AI kuweka lebo kwenye video kwa kutazama na kusikiliza.
  • Mfumo wa AI hujifunza kuwakilisha data ili kunasa dhana zinazoshirikiwa kati ya data inayoonekana na sauti.
  • Ni sehemu ya juhudi za kufundisha AI kuelewa dhana ambazo wanadamu hawana shida kujifunza lakini ambazo kompyuta hupata vigumu kuzielewa.

Image
Image

Mfumo mpya wa kijasusi bandia (AI) unaweza kutazama na kusikiliza video zako na kuweka lebo kuhusu mambo yanayoendelea.

MIT watafiti wameunda mbinu inayofunza AI kunasa vitendo vinavyoshirikiwa kati ya video na sauti. Kwa mfano, njia yao inaweza kuelewa kuwa kitendo cha mtoto kilio kwenye video kinahusiana na neno "kilio" kwenye kipande cha sauti. Ni sehemu ya jitihada za kufundisha AI jinsi ya kuelewa dhana ambazo wanadamu hawana shida kujifunza, lakini ambazo kompyuta huwa vigumu kuzielewa.

"Mtazamo ulioenea wa kujifunza, ujifunzaji unaosimamiwa, hufanya kazi vyema ukiwa na seti za data ambazo zimefafanuliwa vyema na kukamilika," mtaalamu wa AI Phil Winder aliiambia Lifewire katika mahojiano ya barua pepe. "Kwa bahati mbaya, seti za data hazijakamilika mara chache kwa sababu ulimwengu wa kweli una tabia mbaya ya kuwasilisha hali mpya."

Smarter AI

Kompyuta zina shida kubaini matukio ya kila siku kwa sababu zinahitaji kuchanganua data badala ya sauti na picha kama za wanadamu. Mashine "inapoona" picha, lazima isimbue picha hiyo kuwa data inayoweza kutumia kutekeleza kazi kama vile uainishaji wa picha. AI inaweza kukwama wakati ingizo linapokuja katika miundo mingi, kama vile video, klipu za sauti na picha.

"Changamoto kuu hapa ni, mashine inawezaje kuoanisha mbinu hizo tofauti? Kama wanadamu, hii ni rahisi kwetu," Alexander Liu, mtafiti wa MIT na mwandishi wa kwanza wa karatasi kuhusu somo hilo, alisema katika taarifa ya habari. "Tunaona gari kisha tunasikia sauti ya gari likipita, na tunajua haya ni kitu kimoja. Lakini kwa kujifunza kwa mashine, sio moja kwa moja."

Timu ya Liu ilibuni mbinu ya AI ambayo wanasema inajifunza kuwakilisha data ili kunasa dhana zinazoshirikiwa kati ya data inayoonekana na sauti. Kwa kutumia maarifa haya, muundo wao wa kujifunza kwa mashine unaweza kutambua mahali ambapo kitendo mahususi kinafanyika katika video na kukiweka lebo.

Muundo mpya huchukua data ghafi, kama vile video na manukuu ya maandishi yanayolingana, na kusimba kwa kutoa vipengele au uchunguzi kuhusu vitu na vitendo kwenye video. Kisha hupanga alama hizo za data katika gridi ya taifa, inayojulikana kama nafasi ya kupachika. Kielelezo hukusanya data sawa pamoja kama pointi moja kwenye gridi ya taifa; kila moja ya pointi hizi za data, au vekta, inawakilishwa na neno la kibinafsi.

Kwa mfano, klipu ya video ya mtu anayetamba inaweza kuchorwa kwa vekta iliyoandikwa "juggling."

Watafiti walibuni muundo kwa hivyo unaweza kutumia maneno 1,000 pekee kuweka lebo kwenye vekta. Mfano unaweza kuamua ni vitendo au dhana gani inataka kusimba kwenye vekta moja, lakini inaweza kutumia vekta 1,000 pekee. Muundo huchagua maneno ambayo inafikiri yanawakilisha data vyema zaidi.

"Ikiwa kuna video kuhusu nguruwe, modeli inaweza kuagiza neno 'nguruwe' kwa mojawapo ya vivekta 1,000. Kisha, ikiwa mtindo utamsikia mtu akisema neno 'nguruwe' katika klipu ya sauti, bado inapaswa kutumia vekta hiyo hiyo kusimba hilo, " Liu alieleza.

Video Zako, Zilizosifiwa

Mifumo bora ya kuweka lebo kama ile iliyotengenezwa na MIT inaweza kusaidia kupunguza upendeleo katika AI, Marian Beszedes, mkuu wa utafiti na maendeleo katika kampuni ya biometriska Innovatrics, aliiambia Lifewire katika mahojiano ya barua pepe. Beszedes alipendekeza tasnia ya data inaweza kutazama mifumo ya AI kutoka kwa mtazamo wa mchakato wa utengenezaji.

"Mifumo inakubali data ghafi kama ingizo (malighafi), itachakata mapema, inywe, kufanya maamuzi au ubashiri na uchanganuzi wa matokeo (bidhaa zilizokamilishwa), " Beszedes alisema. "Tunaita mtiririko huu "kiwanda cha data," na kama michakato mingine ya utengenezaji, inapaswa kuwa chini ya udhibiti wa ubora. Sekta ya data inahitaji kutibu upendeleo wa AI kama tatizo la ubora.

"Kwa mtazamo wa mtumiaji, data iliyoandikwa vibaya hufanya k.m. kutafuta mtandaoni kwa picha/video mahususi kuwa mgumu zaidi," Beszedes aliongeza. "Ukiwa na AI iliyotengenezwa kwa usahihi, unaweza kuweka lebo kiotomatiki, kwa haraka zaidi na bila upande wowote kuliko kuweka lebo mwenyewe."

Image
Image

Lakini mtindo wa MIT bado una mapungufu. Kwa moja, utafiti wao ulilenga data kutoka kwa vyanzo viwili kwa wakati mmoja, lakini katika ulimwengu halisi, wanadamu hukutana na aina nyingi za habari kwa wakati mmoja, Liu alisema

"Na tunajua maneno 1,000 hufanya kazi kwenye aina hii ya mkusanyiko wa data, lakini hatujui kama inaweza kujumlishwa kwa tatizo la ulimwengu halisi," Liu aliongeza.

Watafiti wa MIT wanasema mbinu yao mpya ni bora kuliko aina nyingi zinazofanana. Ikiwa AI inaweza kufunzwa kuelewa video, unaweza hatimaye kuruka kutazama video za likizo za rafiki yako na badala yake upate ripoti inayozalishwa na kompyuta.

Ilipendekeza: