모레, 텐스토렌트 갤럭시 기반 LLM 추론서 'DGX A100급' 성능 입증

김서윤 | 기자 작성일 2026년 05월 04일

모레 TT-Deploy 행사 현장

모레가 TT-Deploy 행사 현장에서 텐스토렌트 갤럭시 웜홀 시스템 기반 LLM 추론 성능을 시연하는 모습 (사진 제공: 모레)

AI 인프라 소프트웨어 기업 모레가 캐나다 AI 반도체 기업 텐스토렌트의 시스템에서 대형언어모델(LLM) 추론 성능을 입증하면서, 엔비디아 GPU 중심으로 굳어진 AI 인프라 시장에 새로운 선택지를 제시했습니다. 비용 효율과 성능을 동시에 확보했다는 점에서 의미가 적지 않다는 평가가 나옵니다.

'DGX A100급' 성능을 텐스토렌트 위에서 구현

모레는 텐스토렌트 '갤럭시 웜홀' 시스템에 자사 'MoAI 추론 프레임워크'를 적용해 GPT-OSS, Qwen, GLM, DeepSeek 등 최신 MoE(Mixture-of-Experts) 모델 기준 테스트에서 엔비디아 DGX A100급 이상의 성능을 달성했다고 밝혔습니다. DGX A100은 엔비디아 GPU를 다수 탑재한 고성능 AI 서버로, 그동안 LLM 학습과 추론의 사실상 표준 인프라로 자리잡아 왔습니다.

이번 성과는 기존 GPU 기반 인프라와 직접 경쟁이 가능한 수준까지 비-GPU 기반 추론 성능을 끌어올렸다는 점에서 주목받고 있습니다. 그동안 텐스토렌트와 같은 신생 AI 가속기는 하드웨어 잠재력은 인정받았지만, 실제 서비스 환경에서의 성능 검증이 부족하다는 지적이 있었습니다.

갤럭시 웜홀 시스템의 특징

텐스토렌트 갤럭시는 웜홀 칩 기반의 AI 서버로, 학습과 추론 모두에 활용할 수 있는 범용 워크로드를 지원합니다. 32개의 웜홀 프로세서가 2D 메시 구조로 연결돼 있으며, 카드당 24GB의 GDDR6 메모리를 사용한다는 점이 특징입니다. 이는 고가의 HBM(고대역폭 메모리)에 의존하는 일반적인 AI 가속기와 차별화되는 부분입니다.

GPU·NPU 혼합 구조로 비용 낮춘 '이종 분산 서빙'

이번 성과의 핵심은 GPU와 텐스토렌트 칩을 함께 활용하는 '이종 분산 서빙' 전략입니다. 모레는 텐스토렌트 칩을 입력 처리(prefill) 전용 가속기로 활용해 고비용 HBM 사용량을 줄이고 전체 인프라 비용을 절감하는 구조를 구현했습니다.

LLM 추론은 크게 입력 처리(prefill)와 토큰 생성(decode) 두 단계로 나뉘는데, 각 단계가 요구하는 연산 특성이 다릅니다. 모레는 이 단계별 특성에 맞춰 다른 종류의 가속기를 배치해 비용 대비 효율을 극대화하는 접근을 택한 것입니다.

해당 기술은 미국 샌프란시스코에서 열린 텐스토렌트의 신제품 발표 행사 'TT-Deploy'에서 처음 공개됐으며, 현장 데모를 통해 실제 데이터센터 환경에서의 적용 가능성도 함께 확인됐습니다. 모레는 그동안 축적해 온 AMD GPU 운영 경험을 바탕으로 프로덕션 수준의 LLM 추론 환경을 구현했다고 설명했습니다.

벤더 종속 없는 통합 클러스터 운영

MoAI 프레임워크의 또 다른 강점은 다양한 가속기를 단일 클러스터에서 통합 운영할 수 있다는 점입니다. 엔비디아, AMD, 텐스토렌트 등 서로 다른 벤더의 GPU와 NPU를 하나의 클러스터에 묶어 사용할 수 있는 구조이기 때문에, 특정 벤더에 종속되지 않는 유연한 AI 인프라 구축이 가능합니다.

엔비디아 GPU 가격이 지속적으로 상승하고 공급이 제한되는 상황에서, 이러한 멀티 벤더 전략은 기업의 AI 인프라 비용 부담을 완화하는 현실적인 선택지로 떠오르고 있습니다.

"이종 GPU 최적화·NPU 통합으로 추가 성능 개선"

조강원 모레 대표는 "이번 성과는 텐스토렌트 기반에서도 실서비스 수준의 성능과 안정성을 확보했다는 데 의미가 있다"며 향후 이종 GPU 간 최적화와 NPU 통합을 통해 추가 성능 개선을 추진하겠다고 밝혔습니다.

AI 인프라 시장에 던지는 의미

이번 발표는 단순한 한 기업의 기술 시연을 넘어 AI 인프라 시장의 구도 변화를 시사한다는 분석이 나옵니다. 그동안 LLM 추론 시장은 사실상 엔비디아의 독무대였지만, 모레와 텐스토렌트의 협업처럼 소프트웨어 최적화와 하드웨어 다양성을 결합한 접근이 본격화되면서 대안 생태계가 빠르게 성장하고 있습니다.

특히 글로벌 빅테크 기업들이 자체 AI 가속기 개발에 나서고, 다양한 NPU와 신생 가속기가 시장에 진입하는 상황에서 이러한 가속기들을 효율적으로 묶어주는 소프트웨어 계층의 중요성은 갈수록 커지고 있습니다. 모레가 강조하는 'MoAI 추론 프레임워크'와 같은 솔루션이 향후 AI 인프라 시장에서 어떤 역할을 하게 될지 업계의 관심이 모이고 있습니다.