모레, 텐스토렌트와 LLM 추론 협업…“DGX A100급 성능 입증”

박준영 | 기자 작성일 2026년 05월 04일

AI 인프라 솔루션 기업 모레(MOREH)가 캐나다 AI 반도체 기업 텐스토렌트(Tenstorrent)와 손잡고, 엔비디아 GPU 중심으로 굳어져 있던 AI 인프라 시장에 새로운 대안을 제시했다. 자체 추론 프레임워크를 텐스토렌트의 차세대 시스템에 결합해, 엔비디아 DGX A100급 이상의 LLM 추론 성능을 입증했다는 점에서 업계 이목이 쏠리고 있다.

DGX A100급 LLM 추론 성능 달성

모레는 텐스토렌트의 ‘갤럭시 웜홀(Galaxy Wormhole)’ 시스템에 자사 ‘MoAI 추론 프레임워크’를 적용한 결과, 대형언어모델(LLM) 추론에서 엔비디아의 DGX A100급 이상의 성능을 달성했다고 밝혔다. 해당 성과는 5월 1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사 ‘TT-Deploy’에서 공개됐다.

이 자리에서 모레는 ‘텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론’ 기술을 시연하며, 실제 서비스 환경에서도 적용 가능한 수준의 안정성과 성능을 확보했음을 강조했다. 단순한 벤치마크 시연이 아니라, 상용 서비스에 투입할 수 있는 수준이라는 점에서 의미가 크다는 평가다.

실제 성능 검증에 사용된 모델들

모레는 GPT-OSS, 큐웬(Qwen), GLM, 딥시크(DeepSeek) 등 최신 MoE(Mixture of Experts) 모델을 기준으로 테스트를 진행했다. 그 결과 텐스토렌트 갤럭시 웜홀 시스템에서 기존 GPU 기반 인프라와 동등하거나 그 이상의 추론 성능을 확인했다는 설명이다. 고가 GPU 중심으로 구축돼 온 AI 인프라 시장에서 실질적인 대체 가능성을 보여준 사례로 받아들여지고 있다.

텐스토렌트, ‘오픈형 AI 하드웨어’의 대표 주자

텐스토렌트는 캐나다 토론토에 본사를 둔 AI 반도체 기업으로, 반도체 설계 전문가 짐 켈러(Jim Keller)가 이끌고 있다. 미국 실리콘밸리에도 거점을 둔 북미 기반 기업으로, GPU 중심의 폐쇄형 생태계에서 벗어난 ‘오픈형 AI 하드웨어’를 지향한다.

자체 NPU(신경망처리장치)와 개방형 소프트웨어 스택을 기반으로, 다양한 AI 가속기를 유연하게 결합할 수 있는 구조를 갖춘 것이 특징이다. 특정 벤더의 폐쇄형 생태계에 의존하지 않고도 고성능 AI 인프라를 구성할 수 있도록 한다는 것이 텐스토렌트의 핵심 메시지다.

‘통합형 vs 분산형’ 구조 경쟁의 의미

현재 AI 인프라 시장은 엔비디아의 GPU 기반 통합형 구조가 주도하고 있다. DGX와 같은 시스템은 하드웨어와 소프트웨어가 긴밀히 결합된 형태로 높은 성능과 안정성을 제공하지만, 고가의 GPU와 HBM(고대역폭메모리)에 대한 의존도가 높다는 한계가 지적돼 왔다.

반면 텐스토렌트는 역할을 나눠 처리하는 분산형 아키텍처를 채택한다. 입력 처리(prefill)와 추론(decode)을 분리하고, 다양한 칩을 조합하는 방식으로 인프라를 구성할 수 있다. 이를 통해 특정 벤더에 대한 종속을 낮추고 비용 효율성을 높일 수 있다는 점에서 기존 구조와 차별화된다.

‘이종 분산 서빙’으로 비용 효율성 개선

모레는 GPU와 텐스토렌트 칩을 결합한 ‘이종 분산 서빙(Disaggregated Serving)’ 구조를 적용해 비용 효율성을 크게 개선했다고 밝혔다. 텐스토렌트 칩을 입력 처리 전용 가속기로 활용함으로써, HBM 사용량을 줄이고 전체 인프라 비용을 낮췄다는 설명이다.

LLM 추론은 입력을 처리하는 prefill 단계와 토큰을 차례로 생성하는 decode 단계로 나뉜다. 두 단계는 연산 특성이 달라 같은 가속기에서 처리할 경우 자원이 비효율적으로 쓰일 수 있는데, 모레는 단계별로 가장 효율적인 칩을 배치하는 방식으로 이 문제를 풀었다는 것이다.

MoAI 추론 프레임워크의 강점

모레의 ‘MoAI 추론 프레임워크’는 엔비디아, AMD, 텐스토렌트 등 다양한 GPU·NPU를 하나의 클러스터에서 통합 운용할 수 있는 구조를 제공한다. 이를 통해 기업들은 특정 벤더에 종속되지 않고, 성능과 비용을 고려한 최적의 인프라를 설계할 수 있게 된다.

이 같은 ‘멀티 벤더 전략’은 그간 AI 인프라 시장의 화두였지만, 실제로 다양한 벤더의 가속기를 같은 워크로드에서 매끄럽게 운용하는 사례는 많지 않았다. 모레의 이번 시연은 멀티 벤더 환경의 현실화 가능성을 한층 끌어올린 사례로 평가된다.

“지속적 성능 고도화로 GPU 대안 입지 굳힌다”

조강원 모레 대표는 “텐스토렌트 기반 시스템에서도 실제 서비스에 적용 가능한 성능과 안정성을 확인했다”며 “이종 GPU 간 KV 캐시 전송 효율화, 분리 추론 최적화 등을 통해 지속적인 성능 고도화를 추진할 것”이라고 밝혔다.

KV 캐시(Key-Value Cache)는 LLM 추론 과정에서 이전 토큰의 연산 결과를 저장해 두고 재사용하는 핵심 자료구조다. 다양한 가속기 사이에서 KV 캐시를 효율적으로 주고받을 수 있다면, 이종 칩으로 구성된 인프라에서도 성능 저하를 최소화할 수 있다. 모레는 바로 이 영역에서 추가적인 최적화 여지가 크다고 보고 있다.

기업 소개

모레는 AI 인프라 핵심 엔진을 자체 개발하는 한국 기반 AI 인프라 솔루션 기업이다. 멀티 벤더 환경에서 GPU·NPU를 통합 운용하는 ‘MoAI’ 플랫폼을 중심으로, 대규모 LLM 학습·추론 워크로드를 효율적으로 처리하는 기술을 구축해왔다. 자회사 모티프테크놀로지스를 통해 모델 영역까지 기술 역량을 확장하고 있으며, 글로벌 파트너십을 기반으로 AI 인프라 시장에서 영향력을 확대해 나간다는 전략이다.