카카오, 국내 최초로 멀티모달 및 전문가 기반 언어모델 공개 : Programming Story

카카오는 인공지능(AI) 기술에 있어 또 다른 혁신을 이루며 국내 최초로 효율적인 경량 멀티모달 모델과 전문가 기반 혼합(MoE) 모델을 오픈소스로 공개했습니다.

이는 기존의 대형 AI 언어모델 개발에 더해 새로운 접근법을 제시하며 인공지능의 실용성과 접근성을 더욱 높이는 데 기여하고 있습니다.

이번 글에서는 카카오가 공개한 최신 언어모델의 주요 특징과 국내 AI 산업에 미칠 영향에 대해 자세히 살펴보겠습니다.

카카오의 AI 혁신, 카나나 시리즈의 탄생

2025년 7월 24일, 카카오는 오픈소스 플랫폼인 허깅페이스(Hugging Face)를 통해 두 가지 새로운 언어모델을 공개했습니다.

이번 발표는 AI 기술을 통한 국내외 경쟁력 강화를 목표로 삼고 있는 카카오의 노력의 일환으로 이루어진 것입니다.

카카오가 공개한 두 모델 중 하나인 카나나-1.5-v-3b는 텍스트뿐만 아니라 이미지 데이터를 처리할 수 있는 멀티모달 언어모델이며, 카나나-1.5-15.7b-a3b는 전문가 기반 MoE 구조를 적용한 언어모델입니다.

이러한 두 모델은 카카오가 2025년 5월에 오픈소스로 공개했던 카나나-1.5 모델 시리즈의 연장선상에서 발전된 형태로, 불과 두 달 만에 추가 개발 및 공개된 것입니다.

카카오는 그동안 축적한 자체 AI 모델 개발 역량과 대규모 서비스 운영 경험을 바탕으로, 고품질의 AI 접근성을 제공하고 한국 AI 경쟁력을 대외적으로 강화하는 데 목표를 두고 있습니다.

카나나-1.5-v-3b는 사람의 지시를 정확히 이해하고 이를 실행하는 능력이 뛰어난 모델로, 텍스트 데이터뿐만 아니라 이미지 정보를 분석하고 처리할 수 있는 멀티모달 언어모델입니다.

이 모델은 사용자와의 상호작용에서 언어와 비언어적 데이터까지 포괄적으로 다룰 수 있는 역량을 갖추고 있습니다.

카카오는 이 모델의 한국어와 영어 텍스트 처리 능력을 국내외 유사 모델과 비교한 결과, 한국어 벤치마크에서 최고 수준의 점수를 기록했습니다.

또한 영어 벤치마크에서 해외 오픈소스 모델과 대등한 성능을 보여, 카나나-1.5-v-3b가 글로벌 AI 모델 경쟁에서도 두각을 나타낼 수 있음을 입증했습니다.

특히 지시에 따라 작업을 수행하는 능력은 국내에서 공개된 유사 멀티모달 모델 대비 128% 높은 성과를 기록하며 뛰어난 지시 이행 성능을 보여주었습니다.

카카오는 이 모델의 성능을 극대화하기 위해 지식 증류(Knowledge Distillation)라는 기술을 적극적으로 활용했습니다.

지식 증류는 대형 모델에서 얻어진 데이터를 바탕으로 비교적 작은 모델을 학습시켜 대형 모델의 성능에 근접한 예측 능력을 갖도록 돕는 기술입니다.

이를 통해 상대적으로 경량화된 모델 구조를 유지하면서도 정확도와 언어 이해 능력을 대형 모델 수준으로 끌어올렸습니다.

카카오가 이번에 공개한 또 다른 언어모델 카나나-1.5-15.7b-a3b는 전문가 기반 혼합(Mixture of Experts, MoE) 구조를 적용했습니다.

MoE 구조는 입력 데이터를 처리할 때 모든 파라미터를 사용하는 기존 밀집(Dense) 모델 방식과 다르게, 특정 작업에 최적화된 일부 전문가 모델만 활성화하는 효율적인 구조를 갖추고 있습니다.

이 기술의 가장 중요한 장점은 작업별로 최적화된 전문가 모델이 연산을 수행하므로, 성능을 유지하면서도 컴퓨팅 자원 사용을 크게 줄일 수 있다는 점입니다.

동시에 개발 비용과 운영 비용을 절감할 수 있는 효율성으로 인해, MoE 구조는 최근 글로벌 AI 모델 개발에서 트렌드로 자리 잡고 있습니다.

카카오는 기존의 밀집 모델과는 차별화된 MoE 방식의 모델을 통해 뛰어난 성능을 구현하며, 효율성뿐만 아니라 정확도를 극대화하는 데 성공했다고 평가하고 있습니다.

이러한 기술은 현재 AI 모델 개발이 직면한 자원 사용에 대한 문제를 해결하고, 대규모 데이터와 예측 작업을 처리하는 데 최적화된 새로운 방향성을 제시합니다.

카카오는 단순히 모델 성능 향상에 집중하는 것에서 나아가, AI 기술의 접근성을 확대하고 대한민국의 AI 경쟁력을 강화하는 데 중심적인 역할을 하겠다는 비전을 제시하고 있습니다.

이를 위해 카카오는 정부에서 추진하는 독자 AI 파운데이션 모델 프로젝트에 참여하여, 모든 국민이 AI 기술을 보다 쉽게 활용할 수 있는 환경을 마련하고자 합니다.

카카오는 자체 개발한 카나나 시리즈와 카카오톡 같은 대규모 서비스 운영 경험을 바탕으로 한국어에 특화된 언어모델을 발전시키고 있으며, 앞으로도 다양한 언어처리 기술을 통해 AI가 일상 속에서 인간의 삶을 더욱 편리하고 풍요롭게 만드는 데 기여할 계획입니다.

카카오의 기술 개발은 멀티모달 언어모델과 전문가 기반 MoE 모델 개발로만 그치지 않습니다.

카카오는 AI를 사람처럼 사고하고 행동할 수 있는 형태로 발전시키는 것을 목표로 하고 있으며, 이를 위한 핵심 요소인 에이전트형 AI 구현에 주력하고 있습니다.

에이전트형 AI는 사용자와 소통하며 다양한 데이터를 종합적으로 처리해 최상의 해결책을 제시할 수 있는 능력을 갖추게 될 것입니다.

이러한 기술은 멀티모달 이해 능력, 지시 수행 능력, 추론 능력 등 다양한 고도화된 기능을 포함하며, 카카오는 하반기에 추론 모델의 추가 성과를 공개할 계획이라고 밝혔습니다.

카카오는 AI 기술이 단순히 상호작용 도구를 넘어 우리 삶과 업무의 중요한 일부가 되는 미래를 위한 발판을 마련했습니다.

카나나-1.5-v-3b와 카나나-1.5-15.7b-a3b는 이미지와 텍스트 데이터를 처리하는 멀티모달 능력과 효율적인 전문가 기반 연산 구조 등 다양한 측면에서 AI의 발전 가능성을 입증하며, 국내외 시장에서 경쟁력을 확보하고 있습니다.

카카오는 앞으로도 AI 모델 개발을 통해 기술과 사용자의 밀착도를 높이고, 보다 실용적이며 접근 가능한 환경을 구축할 방안을 모색할 예정입니다.

이러한 움직임은 카카오가 기존의 서비스 기반을 넘어, AI 기술에서 세계적인 선두주자로 자리 잡겠다는 확고한 목표를 보여주는 것입니다.

한국 AI 기술의 가능성을 발전시키는 카카오의 끊임없는 혁신이 오늘날 AI 산업에서 어떤 변화를 가져올지, 앞으로도 계속 주목할 필요가 있겠습니다.