Microsoft Kosmos-1-ը ճանապարհ է հարթում դեպի մարդկային մակարդակի AI

Այս շաբաթվա սկզբին հետազոտողները Microsoft ներկայացրել է Kosmos-1-ը՝ մուլտիմոդալ արհեստական ինտելեկտի մոդելը, որը կարող է վերլուծել պատկերները բովանդակության համար, լուծել վիզուալ հանելուկներ, կատարել տեսողական տեքստի ճանաչում, կատարել IQ տեսողական թեստեր և հասկանալ բնական լեզվի հրահանգները: Հետազոտողների կարծիքով՝ արհեստական ինտելեկտի նման մոդելները առաջին քայլն են արհեստական ընդհանուր ինտելեկտի (AI) ստեղծման ճանապարհին, որը կարող է կատարել մարդու մակարդակի համատեղ առաջադրանքներ։ Այսինքն՝ այս տեխնոլոգիան կկարողանա փոխարինել մարդուն ցանկացած ինտելեկտուալ առաջադրանքում։ Եվ սա է OpenAI-ի՝ առանցքային բիզնես գործընկերոջ հայտարարված նպատակը Microsoft արհեստական ինտելեկտի ոլորտում։

Այս դեպքում «Կոսմոս-1»-ը ընկերության զուտ անհատական զարգացումն է Microsoft. Հետազոտողները իրենց ստեղծումն անվանում են «բազմամոդալ լայնալեզու մոդել» (MLLM), քանի որ դրա արմատները միայն տեքստով բնական լեզվի մշակման մեջ են, ինչպիսին LLM-ն է, ինչպիսին է ChatGPT-ն: Որպեսզի մոդելն ընդունի մուտքային պատկերներ, հետազոտողները նախ պետք է պատկերները փոխակերպեն նշանների հատուկ շարքի (հիմնականում տեքստի), որը LLM-ը կարող է հասկանալ:

Kosmos-1-ը վերապատրաստվել է համացանցից տվյալների բազայի վրա, ներառյալ քաղվածքներ The Pile-ից (800 ԳԲ անգլերեն տեքստային ռեսուրս) և Common Crawl-ից: Այնուհետև մոդելը փորձարկվել է մի քանի թեստերով՝ խոսքի ըմբռնման, խոսքի ստեղծման, տեքստի դասակարգման՝ առանց օպտիկական նիշերի ճանաչման, պատկերի վերնագրերի, տեսողական հարցերի պատասխանի, վեբ էջի հարցերի պատասխանների և պատկերների դասակարգման՝ տեղայնացման համար: Համաձայն Microsoft, Kosmos-1-ը այս փորձարկումներից շատերում գերազանցեց ներկայիս մոդելներին:

Հատկապես հետաքրքիր էր Raven's Progressive Reasoning թեստը, որը չափում է տեսողական IQ-ն՝ ներկայացնելով ձևերի հաջորդականություն և խնդրելով սուբյեկտին լրացնել հաջորդականությունը: Kosmos-1-ը կարողացել է ճիշտ պատասխան տալ 22%-ի դեպքում։

Այս վաղ քայլերը, որոնք ապագա օպտիմիզացիայի դեպքում կարող են ավելի նշանակալից արդյունքներ տալ՝ թույլ տալով AI մոդելներին ընկալել և ազդել ցանկացած տեսակի մեդիայի վրա՝ մեծապես ընդլայնելով արհեստական օգնականների հնարավորությունները:

Կարդացեք նաև.

Աղբյուրարստեխնիկա

Գրանցվել

0 մեկնաբանություններ

Ներկառուցված ակնարկներ

Դիտել բոլոր մեկնաբանությունները

Այլ հոդվածներ

Microsoft ներկայացրել է մուլտիմոդալ մոտեցում՝ ճանապարհ հարթելով դեպի մարդկային մակարդակի AI

Վերջին մեկնաբանությունները