Նոր AI Microsoft կարող է ընդօրինակել ցանկացած մարդու ձայնը

Հինգշաբթի օրը հետազոտողները Microsoft հայտարարեց արհեստական ինտելեկտի (AI) նոր մոդելի մասին, որը կոչվում է VALL-E, որը կարող է ճշգրիտ կերպով նմանակել մարդու ձայնը, երբ տրվում է երեք վայրկյան ձայնային նմուշ: Հենց որ այն սովորի որոշակի ձայն, VALL-E-ն կարող է սինթեզել այդ անձի ձայնը, որն ասում է որևէ բան՝ պահպանելով խոսողի հուզական երանգը:

Դրա հեղինակներն առաջարկում են, որ VALL-E-ն կարող է օգտագործվել բարձրորակ տեքստի խոսքի, խոսքի խմբագրման համար, որտեղ մարդու ձայնագրությունը կարող է խմբագրվել և փոփոխվել տեքստի տառադարձումից (ստիպելով նրանց ասել այն, ինչ ի սկզբանե չեն ասել), և աուդիո բովանդակություն ստեղծելու համար՝ համակցված այլ գեներացնող AI մոդելների հետ, ինչպիսիք են GPT-3.

Microsoft VALL-E-ն անվանում է «Նյարդային կոդեկի լեզվի մոդել», և այն հիմնված է EnCodec կոչվող տեխնոլոգիայի վրա, որը Meta-ն հայտարարեց 2022 թվականի հոկտեմբերին: Ի տարբերություն տեքստից խոսքի այլ մեթոդների, որոնք սովորաբար սինթեզում են խոսքը՝ մանիպուլյացիայի ենթարկելով ալիքի ձևերը, VALL-E-ն ստեղծում է դիսկրետ ձայն: կոդեկային կոդեր տեքստային և ակուստիկ հուշումներից: Այն հիմնականում վերլուծում է, թե ինչպես է մարդը հնչում, բաժանում է այդ տեղեկատվությունը առանձին բաղադրիչների (կոչվում են «tokens») EnCodec-ի շնորհիվ և օգտագործում է ուսուցման տվյալները՝ համապատասխանեցնելու այն, ինչ «գիտի» այն մասին, թե ինչպես կհնչեր այդ ձայնը, եթե դրսում արտասաներ այլ արտահայտություններ: երեք վայրկյանանոց նմուշից։

Microsoft վերապատրաստեց VALL-E-ի խոսքի սինթեզի հնարավորությունները Meta-ի կողմից կազմված LibriLight կոչվող աուդիո գրադարանի վրա: Այն պարունակում է 60 ժամ անգլալեզու հեռարձակումներ ավելի քան 7 հաղորդավարներից, հիմնականում վերցված հանրային հասանելի LibriVox աուդիոգրքերից:

Բացի հաղորդավարի ձայնային տեմբրը և զգացմունքային տոնը պահպանելուց, VALL-E-ն կարող է նաև նմանակել աուդիո նմուշի «ակուստիկ միջավայրը»: Օրինակ, եթե նմուշը ստացվել է հեռախոսային խոսակցությունից, ապա սինթեզված աուդիո ելքը նմանակում է հեռախոսային խոսակցության ակուստիկ և հաճախականության հատկությունները: Նաև նմուշներ Microsoft ցույց տալ, որ VALL-E-ն կարող է առաջացնել ձայնային տեմբրի տատանումներ:

Թերևս շնորհիվ VALL-E-ի՝ խարդախության և խաբեության հնարավոր դյուրացման ունակության պատճառով, Microsoft չի տրամադրել VALL-E կոդը, որպեսզի ուրիշները փորձարկեն, ուստի մենք չենք կարողանա ստուգել դրա հնարավորությունները: Հետազոտողները, կարծես, տեղյակ են այս տեխնոլոգիայի հնարավոր սոցիալական վնասի մասին: Հոդվածի վերջում նրանք գրում են.

«Քանի որ VALL-E-ն կարող է սինթեզել խոսք, որը պահպանում է խոսողի ինքնությունը, այն կարող է կրել մոդելի չարաշահման հնարավոր ռիսկեր, ինչպիսիք են ձայնի նույնականացումը կեղծելը կամ որոշակի խոսնակի նմանակումը: Նման ռիսկերը նվազեցնելու համար կստեղծվի ճանաչման մոդել՝ տարբերակելու համար, թե արդյոք աուդիո հոլովակը սինթեզվել է VALL-E-ի միջոցով»:

Դուք կարող եք օգնել Ուկրաինային պայքարել ռուս զավթիչների դեմ։ Դա անելու լավագույն միջոցը Ուկրաինայի զինված ուժերին միջոցների նվիրաբերումն է Savelife կամ պաշտոնական էջի միջոցով NBU.

Կարդացեք նաև.

Աղբյուրարստեխնիկա

Գրանցվել

0 մեկնաբանություններ

Ներկառուցված ակնարկներ

Դիտել բոլոր մեկնաբանությունները

Այլ հոդվածներ

Նոր AI Microsoft ընդօրինակում է ցանկացած մարդու ձայնը 3 վայրկյանանոց աուդիո նմուշից

Վերջին մեկնաբանությունները