Տոկիոյի համալսարանի թիմը ներկայացրել է Alter3-ը՝ մարդանման ռոբոտը, որը կարող է շարժումներ կատարել՝ օգտագործելով GPT-4 Large Language Model (LLM): Alter3-ն օգտագործում է վերջին գործիքը Բացեք AI-ն դինամիկ կերպով տարբեր դիրքեր ընդունել՝ սելֆիի դիրքից մինչև ուրվականներ, այս ամենը առանց տվյալների բազայում նախապես ծրագրավորված գրառումների անհրաժեշտության:

«Alter3-ի արձագանքը խոսակցական բովանդակությանը դեմքի արտահայտությունների և ժեստերի միջոցով զգալի առաջընթաց է մարդանման ռոբոտաշինության մեջ, որը հեշտությամբ հարմարվում է այլ անդրոիդներին՝ նվազագույն փոփոխություններով», - ասում են հետազոտողները:

Ռոբոտների հետ LLM-ի ինտեգրման ոլորտում ուշադրությունը կենտրոնացված է հիմնական հաղորդակցության բարելավման և իրատեսական պատասխանների մոդելավորման վրա: Հետազոտողները նաև խորանում են LLM-ի հնարավորությունների մեջ՝ ռոբոտներին հնարավորություն տալու հասկանալ և կատարել բարդ հրահանգներ՝ դրանով իսկ մեծացնելով դրանց ֆունկցիոնալությունը:

Ավանդաբար, ցածր մակարդակի կառավարում աշխատանքները կապված է սարքավորումների հետ և գտնվում է LLM կորպորացիաների իրավասությունից դուրս: Սա դժվարություններ է ստեղծում LLM-ի վրա հիմնված աշխատանքների անմիջական կառավարման համար: Լուծելով այս խնդիրը՝ ճապոնական թիմը մշակել է մարդու շարժումների արտահայտությունները Android-ի համար հասկանալի կոդի վերածելու մեթոդ։ Սա նշանակում է, որ ռոբոտը կարող է ժամանակի ընթացքում ինքնուրույն առաջացնել գործողությունների հաջորդականություն՝ առանց ծրագրավորողների՝ մարմնի յուրաքանչյուր մասի անհատական ծրագրավորման անհրաժեշտության:

Փոխազդեցության ընթացքում անձը կարող է Alter3 հրամաններ տալ, ինչպիսիք են «Սելֆի արեք ձեր iPhone-ով»: Հետագայում, ռոբոտը մի շարք հարցումներ է նախաձեռնում GPT-4-ին՝ անհրաժեշտ քայլերի վերաբերյալ ուղեցույց ստանալու համար: GPT-4 դա կթարգմանի Python կոդի, որը թույլ է տալիս աշխատանքին «հասկանալ» և կատարել անհրաժեշտ շարժումները։ Այս նորամուծությունը Alter3-ին թույլ է տալիս շարժել իր վերին մարմինը, մինչդեռ նրա ստորին մարմինը մնում է անշարժ՝ ամրացված կանգառին:

Alter3-ը 2016 թվականից ի վեր Alter-ի մարդանման ռոբոտների շարքի երրորդ կրկնությունն է, որը պարծենում է 43 շարժիչներով, որոնք պատասխանատու են սեղմված օդի միջոցով սնուցվող դեմքի արտահայտությունների և վերջույթների շարժումների համար: Այս կոնֆիգուրացիան ապահովում է արտահայտիչ ժեստերի լայն շրջանակ: Ռոբոտը չի կարող քայլել, բայց կարող է ընդօրինակել սովորական քայլելու և վազելու շարժումները։

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3-ը ցուցադրեց նաև տեսախցիկի և OpenPose շրջանակի միջոցով մարդկային դիրքերը պատճենելու ունակությունը: Ռոբոտը հարմարեցնում է իր հոդերը դիտարկված կեցվածքին և պահպանում է հաջող իմիտացիաները հետագա օգտագործման համար: Մարդու հետ փոխազդեցությունը հանգեցրեց ավելի բազմազան կեցվածքի, որն աջակցում էր այն գաղափարին, որ տարբեր շարժումներ գալիս են մարդուն նմանակելուց, ինչպես նորածինները սովորում են իմիտացիայի միջոցով:

Նախքան LLM-ը, հետազոտողները պետք է ուշադիր վերահսկեին բոլոր 43 ակտիվացնողներին՝ վերստեղծելու մարդու դիրքը կամ նմանակելու վարքագիծը, օրինակ՝ թեյ մատուցելը կամ շախմատ խաղալը: Սա պահանջում էր բազմաթիվ ձեռքով ճշգրտումներ, բայց AI օգնեց թիմին ազատել այս առօրյայից: «Մենք ակնկալում ենք, որ Alter3-ը արդյունավետ կերպով կներգրավվի երկխոսության մեջ՝ ցուցադրելով համատեքստին համապատասխան դեմքի արտահայտություններ և ժեստեր: Այն ցույց տվեց հույզերը հայելու ունակություն, օրինակ՝ տխրություն կամ երջանկություն ի պատասխան ցույց տալու՝ դրանով իսկ մեզ հետ կիսելով զգացմունքները»,- ասում են հետազոտողները։

Կարդացեք նաև.

Աղբյուրհետաքրքիր ճարտարագիտություն

Գրանցվել

0 մեկնաբանություններ

Ներկառուցված ակնարկներ

Դիտել բոլոր մեկնաբանությունները

Այլ հոդվածներ

Տոկիոյում ցուցադրվել են GPT-3-ի վրա հիմնված Alter4 մարդանման ռոբոտի հաջողությունները

Վերջին մեկնաբանությունները