IT·테크2026. 03. 29.

카카오, 컴퓨터 대신 클릭하는 AI 에이전트 CUA 개발 착수…카나나-v 기반 확장

by 신미소 (기자)

#it테크#카카오#ai에이전트#cua#카나나

신미소 | 기자 작성일 2026년 03월 29일

카카오 AI 캠퍼스 이프 카카오 콘퍼런스

카카오가 컴퓨터 화면을 보고 자율적으로 작업을 수행하는 CUA 기술 개발에 착수했다

카카오가 사람처럼 컴퓨터 화면을 보고 마우스·키보드를 조작해 자율적으로 작업을 수행하는 '컴퓨터 사용 에이전트(CUA)' 기술 개발에 나선다. 오픈AI, 구글 등 글로벌 빅테크가 관련 서비스를 이미 시작한 가운데 AI 에이전트 구현 기술을 확보하려는 행보로 풀이된다.

29일 업계에 따르면 카카오는 CUA 기술 개발에 착수했다. 자체 개발한 시각 언어 이해 모델 '카나나-v(Kanana-v)'의 기능을 확장하는 방향으로 CUA를 도입한다.

CUA는 AI가 컴퓨터 화면을 보고 마우스와 키보드를 조작해 작업을 자율적으로 수행하는 기술이다. 웹 브라우저를 스스로 조작해 예약·쇼핑 등 작업을 자동 처리하는 오픈AI의 '오퍼레이터', 구글의 '마리나 프로젝트' 등이 CUA를 활용한 대표적인 서비스다.

카카오는 CUA 가운데 '그래픽사용인터페이스(GUI) 그라운딩(Grounding)' 개발에 집중했다. 이 기술을 활용하면 에이전트 동작을 실행하기 위해 목표 대상의 정확한 화면 좌표를 찾아낼 수 있다. 최근에는 이를 기반으로 '계획(Planning)' 기술도 개발하고 있는데, 사용자의 목표를 컴퓨터가 실행할 수 있는 구체적인 단계로 쪼개는 능력이다.

카카오는 카카오톡을 중심으로 검색·커머스·예약·로컬·콘텐츠 등 서비스에서 사용자 요청에 응답하는 에이전트를 구현할 계획이다. 특히 앱·웹·내부 도구·레거시 UI가 혼재된 환경에서 AI 에이전트를 구현하도록 돕는 핵심 기술로 CUA를 활용한다.

카카오 관계자는 "CUA를 단순 UI 조작 기술이 아닌 서비스형 에이전트 기술로 발전시키고자 한다"면서 "화면 이해를 넘어 사용자의 의도를 바탕으로 작업 절차를 구성하고 최종 과업을 완수하는 '엔드 투 엔드(End-to-end)' 역량이 중요하다"고 말했다.

한편 카카오는 온디바이스에 탑재 가능한 규모로 경량화된 멀티모달 모델의 연구 개발과 서비스 적용도 검토 중이다. 이달 정식 서비스를 시작한 '카나나 인 카카오톡' 같은 온디바이스 AI 서비스에 멀티모달 기술이 활용될 전망이다. 장기적으로는 '카나나-o' 모델로 음성·비전·텍스트를 아우르는 통합형 AI를 구축할 계획이다.