MS, 음성 전사·음성 생성·이미지 생성 AI 모델 3종 개발자 공개

오지훈 | 기자 작성일 2026년 04월 03일

MS MAI AI 모델 음성 이미지 생성

마이크로소프트가 공개한 MAI 음성·이미지 생성 모델

마이크로소프트(MS)가 음성 전사(받아쓰기)와 음성 생성, 이미지 생성에 특화된 AI 모델 3종을 개발자용으로 공개했다.

2일(현지시간) 사티아 나델라 MS 최고경영자(CEO)는 링크트인을 통해 "모든 개발자에게 성장하는 MAI(MS AI) 모델 제품군을 제공하게 됐다"며 음성 전사 모델 'MAI-트랜스크라이브-1', 음성 생성 모델 'MAI-보이스-1', 이미지 생성 모델 'MAI-이미지-2' 등을 소개했다.

MAI-트랜스크라이브-1, 25개 언어 인식·최저 오류율 달성

MAI-트랜스크라이브-1은 영어와 한국어를 포함한 25개 언어를 인식할 수 있으며, 업계 표준 성능지표(벤치마크)인 '플뢰르'에서 오픈AI·구글 등의 모델을 제치고 가장 낮은 오류율을 기록했다. MS는 이 모델이 다국어로 진행되는 회의 현장이나 카페·콘서트홀 같은 소음 환경에서도 음성을 정확하게 인식할 수 있다고 강조했다.

MAI-보이스-1은 몇 초 길이의 음성 데이터만으로도 맞춤형 음성을 생성할 수 있으며, 60초 분량의 오디오를 단 1초 만에 만들어낼 수 있다. MAI-이미지-2는 최상위권 수준의 이미지를 낮은 비용으로 생성하는 가격 대비 성능비를 강점으로 내세웠다.

"2027년까지 최첨단 AI 자립 목표"

MS는 지난해부터 딥마인드 공동창업자 출신인 무스타파 술레이만 MAI 부문 CEO에게 인간을 능가하는 '초지능' 연구·개발을 맡겼다. 아직 경쟁사 수준의 범용 기반 모델(파운데이션 모델)을 완성하지 못한 상황이지만, 단계별 특화 모델 공개로 AI 자립을 향한 여정을 이어가고 있다.

술레이만 CEO는 블룸버그 통신에 "우리는 절대적인 최첨단 기술을 내놔야 하고, 확실히 2027년까지는 최고 수준에 도달하는 것이 목표"라며 "나델라 CEO도 최근 사내 개발자 모임에서 3~5년 내 최첨단 AI 자립의 중요성을 강조했다"고 설명했다.