Meta-ի ImageBind AI-ն կարող է ընդօրինակել մարդու ընկալումը

Meta-ն անվան տակ հրապարակում է կոդը բաց մուտքի արհեստական ինտելեկտում imagebind, որը կանխատեսում է տվյալների միջև հարաբերությունները, որոնք նման են այն բանին, թե ինչպես են մարդիկ ընկալում կամ պատկերացնում իրենց միջավայրը: Մինչ պատկերների գեներատորները, ինչպիսիք են Midjourney-ը, Stable Diffusion-ը և DALL-E 2-ը, բառերը կապում են պատկերների հետ՝ թույլ տալով ստեղծել տեսողական տեսարաններ՝ հիմնվելով միայն տեքստային նկարագրության վրա, ImageBind-ը դուրս է գալիս դրանից: Այն կարող է կապել տեքստը, պատկերները կամ տեսանյութերը, աուդիո, 3D չափումները, ջերմաստիճանի տվյալները և շարժման տվյալները, և դա անում է առանց նախավարժանքի անհրաժեշտության ամեն հնարավորության դեպքում: Սա շրջանակի վաղ փուլն է, որը, ի վերջո, կկարողանա ստեղծել բարդ միջավայրեր պարզ մուտքերից, ինչպիսիք են տեքստային հուշումը, պատկերը կամ ձայնը (կամ դրանց համակցությունը):

Metaverse Project

Դուք կարող եք պատկերացնել ImageBind-ը որպես մեքենայական ուսուցման մոտավորություն մարդկային ուսուցմանը: Օրինակ, եթե դուք կանգնած եք դինամիկ միջավայրում, օրինակ՝ բանուկ քաղաքային փողոցում, ձեր ուղեղը (հիմնականում անգիտակցաբար) կլանում է տեսարանները, ձայները և այլ զգայական սենսացիաներ՝ տեղեկություններ ստանալու համար անցնող մեքենաների, բարձր շենքերի, եղանակի և այլնի մասին։ . Մարդիկ և այլ կենդանիներ զարգացել են, որպեսզի մշակեն այս տվյալները մեր գենետիկ առավելությունների համար՝ գոյատևելու և մեր ԴՆԹ-ի փոխանցումը: (Որքան ավելի շատ իմանաք ձեր շրջապատի մասին, այնքան ավելի շատ կարող եք խուսափել վտանգներից և հարմարվել ձեր միջավայրին՝ ավելի լավ գոյատևելու և բարգավաճելու համար): Քանի որ համակարգիչները մոտենում են կենդանիների բազմազգայական կապերը նմանակելուն, նրանք կարող են օգտագործել այդ կապերը՝ միայն սահմանափակ տվյալների վրա հիմնված ամբողջությամբ իրականացրած տեսարաններ ստեղծելու համար:

Այսպիսով, մինչ դուք կարող եք օգտագործել Midjourney-ն՝ ստեղծելու «հենդալֆի կոստյումով շան շուն, որը հավասարակշռում է ծովափնյա գնդակի վրա» և ստանալ այդ տարօրինակ տեսարանի համեմատաբար իրատեսական լուսանկարը, մուլտիմոդալ AI գործիքը, ինչպիսին ImageBind-ն է, կարող է վերջիվերջո ստեղծել համապատասխան տեսանյութ շան հետ: հնչյուններ, ներառյալ մանրամասն հյուրասենյակը, սենյակի ջերմաստիճանը և շան և տեսարանի բոլոր մյուսների ճշգրիտ վայրը: «Սա հիանալի հնարավորություն է ստեղծում ստատիկ պատկերներից անիմացիաներ ստեղծելու համար՝ դրանք համատեղելով աուդիո հուշումների հետ», - նշում են Meta-ի հետազոտողները իրենց ծրագրավորողներին ուղղված բլոգում: «Օրինակ, ստեղծողը կարող է պատկերը համադրել զարթուցիչի և աքաղաղի հետ և օգտագործել աուդիո ազդանշան՝ աքաղաղը հատվածավորելու համար կամ զարթուցիչի ձայնը՝ ժամացույցը սեգմենտավորելու և երկուսն էլ տեսահոլովակի հաջորդականությամբ կենդանացնելու համար»:

Meta

Ինչ վերաբերում է այն բանին, թե ուրիշ ինչ կարելի է անել այս նոր խաղալիքով, այն հստակ մատնանշում է Meta-ի հիմնական հավակնություններից մեկը՝ VR, խառը իրականություն և մետատարածություն: Օրինակ, պատկերացրեք ապագա ականջակալը, որը կարող է կառուցել 3D տեսարաններ (ձայնով, շարժումներով և այլն) թռիչքի ժամանակ: Կամ վիրտուալ խաղերի մշակողները կարող են ի վերջո օգտագործել այն, որպեսզի խնայեն իրենց նախագծման գործընթացում տքնաջան աշխատանքի զգալի մասը: Նմանապես, բովանդակություն ստեղծողները կարող են ստեղծել սուզվող տեսանյութեր՝ իրատեսական սաունդթրեքերով և շարժումներով՝ հիմնված պարզապես տեքստի, պատկերների կամ աուդիոի վրա: Հեշտ է նաև պատկերացնել, թե ինչպես է ImageBind-ի նման գործիքը նոր դռներ բացում հասանելիության մեջ՝ իրական ժամանակում ստեղծելով մուլտիմեդիա նկարագրություններ՝ օգնելու տեսողության կամ լսողության խանգարումներ ունեցող մարդկանց ավելի լավ հասկանալ իրենց միջավայրը:

Հետաքրքիր է նաև. Արհեստական ինտելեկտի վրա հիմնված լավագույն գործիքները

«Տիպիկ AI համակարգերում կա հատուկ ներդրում (այսինքն՝ թվերի վեկտորներ, որոնք կարող են ներկայացնել տվյալները և դրանց փոխհարաբերությունները մեքենայական ուսուցման մեջ) յուրաքանչյուր համապատասխան եղանակի համար», - ասում է Մետան: «ImageBind-ը ցույց է տալիս, որ հնարավոր է ստեղծել միասնական ներկառուցման տարածություն մի քանի եղանակների համար՝ առանց տվյալների վերապատրաստման՝ յուրաքանչյուր առանձին եղանակների համակցության հետ: Սա կարևոր է, քանի որ հետազոտողները չեն կարող տվյալների հավաքածուներ ստեղծել նմուշներով, որոնք պարունակում են, օրինակ, աուդիո և ջերմային տվյալներ քաղաքի բանուկ փողոցից, կամ խորության տվյալներ և ծովափնյա ժայռի տեքստային նկարագրություն»:

Մետան կարծում է, որ այս տեխնոլոգիան ի վերջո դուրս կգա ներկայիս վեց «զգայություններից», այսպես ասած։ «Չնայած մենք ուսումնասիրել ենք վեց եղանակներ մեր ընթացիկ ուսումնասիրության մեջ, մենք կարծում ենք, որ նոր մեթոդների ներդրումը, որոնք կապում են հնարավորինս շատ զգայարաններ, ինչպիսիք են հպումը, խոսքը, հոտը և fMRI ուղեղի ազդանշանները, թույլ կտան ավելի հարուստ մարդակենտրոն AI մոդելներ»: Մշակողները, ովքեր հետաքրքրված են ուսումնասիրել այս նոր ավազատուփը, կարող են սկսել՝ սուզվելով Meta-ի բաց կոդով:

Կարդացեք նաև.

ԱղբյուրEngadget

Գրանցվել

0 մեկնաբանություններ

Ներկառուցված ակնարկներ

Դիտել բոլոր մեկնաբանությունները

Այլ հոդվածներ

Meta-ի ImageBind AI-ն կարող է ընդօրինակել մարդու ընկալումը

Վերջին մեկնաբանությունները