Տոկիոյի համալսարանի թիմը ներկայացրել է Alter3-ը՝ մարդանման ռոբոտը, որը կարող է շարժումներ կատարել՝ օգտագործելով GPT-4 Large Language Model (LLM): Alter3-ն օգտագործում է վերջին գործիքը Բացեք AI-ն դինամիկ կերպով տարբեր դիրքեր ընդունել՝ սելֆիի դիրքից մինչև ուրվականներ, այս ամենը առանց տվյալների բազայում նախապես ծրագրավորված գրառումների անհրաժեշտության:
«Alter3-ի արձագանքը խոսակցական բովանդակությանը դեմքի արտահայտությունների և ժեստերի միջոցով զգալի առաջընթաց է մարդանման ռոբոտաշինության մեջ, որը հեշտությամբ հարմարվում է այլ անդրոիդներին՝ նվազագույն փոփոխություններով», - ասում են հետազոտողները:
Ռոբոտների հետ LLM-ի ինտեգրման ոլորտում ուշադրությունը կենտրոնացված է հիմնական հաղորդակցության բարելավման և իրատեսական պատասխանների մոդելավորման վրա: Հետազոտողները նաև խորանում են LLM-ի հնարավորությունների մեջ՝ ռոբոտներին հնարավորություն տալու հասկանալ և կատարել բարդ հրահանգներ՝ դրանով իսկ մեծացնելով դրանց ֆունկցիոնալությունը:
Ավանդաբար, ցածր մակարդակի կառավարում աշխատանքները կապված է սարքավորումների հետ և գտնվում է LLM կորպորացիաների իրավասությունից դուրս: Սա դժվարություններ է ստեղծում LLM-ի վրա հիմնված աշխատանքների անմիջական կառավարման համար: Լուծելով այս խնդիրը՝ ճապոնական թիմը մշակել է մարդու շարժումների արտահայտությունները Android-ի համար հասկանալի կոդի վերածելու մեթոդ։ Սա նշանակում է, որ ռոբոտը կարող է ժամանակի ընթացքում ինքնուրույն առաջացնել գործողությունների հաջորդականություն՝ առանց ծրագրավորողների՝ մարմնի յուրաքանչյուր մասի անհատական ծրագրավորման անհրաժեշտության:
Փոխազդեցության ընթացքում անձը կարող է Alter3 հրամաններ տալ, ինչպիսիք են «Սելֆի արեք ձեր iPhone-ով»: Հետագայում, ռոբոտը մի շարք հարցումներ է նախաձեռնում GPT-4-ին՝ անհրաժեշտ քայլերի վերաբերյալ ուղեցույց ստանալու համար: GPT-4 դա կթարգմանի Python կոդի, որը թույլ է տալիս աշխատանքին «հասկանալ» և կատարել անհրաժեշտ շարժումները։ Այս նորամուծությունը Alter3-ին թույլ է տալիս շարժել իր վերին մարմինը, մինչդեռ նրա ստորին մարմինը մնում է անշարժ՝ ամրացված կանգառին:
Alter3-ը 2016 թվականից ի վեր Alter-ի մարդանման ռոբոտների շարքի երրորդ կրկնությունն է, որը պարծենում է 43 շարժիչներով, որոնք պատասխանատու են սեղմված օդի միջոցով սնուցվող դեմքի արտահայտությունների և վերջույթների շարժումների համար: Այս կոնֆիգուրացիան ապահովում է արտահայտիչ ժեստերի լայն շրջանակ: Ռոբոտը չի կարող քայլել, բայց կարող է ընդօրինակել սովորական քայլելու և վազելու շարժումները։
Alter3-ը ցուցադրեց նաև տեսախցիկի և OpenPose շրջանակի միջոցով մարդկային դիրքերը պատճենելու ունակությունը: Ռոբոտը հարմարեցնում է իր հոդերը դիտարկված կեցվածքին և պահպանում է հաջող իմիտացիաները հետագա օգտագործման համար: Մարդու հետ փոխազդեցությունը հանգեցրեց ավելի բազմազան կեցվածքի, որն աջակցում էր այն գաղափարին, որ տարբեր շարժումներ գալիս են մարդուն նմանակելուց, ինչպես նորածինները սովորում են իմիտացիայի միջոցով:
Նախքան LLM-ը, հետազոտողները պետք է ուշադիր վերահսկեին բոլոր 43 ակտիվացնողներին՝ վերստեղծելու մարդու դիրքը կամ նմանակելու վարքագիծը, օրինակ՝ թեյ մատուցելը կամ շախմատ խաղալը: Սա պահանջում էր բազմաթիվ ձեռքով ճշգրտումներ, բայց AI օգնեց թիմին ազատել այս առօրյայից: «Մենք ակնկալում ենք, որ Alter3-ը արդյունավետ կերպով կներգրավվի երկխոսության մեջ՝ ցուցադրելով համատեքստին համապատասխան դեմքի արտահայտություններ և ժեստեր: Այն ցույց տվեց հույզերը հայելու ունակություն, օրինակ՝ տխրություն կամ երջանկություն ի պատասխան ցույց տալու՝ դրանով իսկ մեզ հետ կիսելով զգացմունքները»,- ասում են հետազոտողները։
Կարդացեք նաև.