모레, 텐스토렌트 갤럭시 웜홀에서 'A100급 LLM 추론' 성능 입증

서지우 | 기자 작성일 2026년 5월 4일

모레가 텐스토렌트 신제품 발표 행사에서 갤럭시 기반 LLM 추론 성과를 소개하는 모습

모레가 1일(현지시간) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에 참여해 '텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론' 기술적 성과를 소개했다. (모레 제공)

국내 AI 인프라 기업 모레가 텐스토렌트의 '갤럭시 웜홀' 시스템에 자사 'MoAI 추론 프레임워크'를 적용해 거대언어모델(LLM) 추론 성능을 성공적으로 입증했다고 4일 밝혔습니다. 엔비디아(NVIDIA) 중심의 AI 인프라 시장에서 비(非)엔비디아 가속기로도 상용 수준 LLM 서비스를 운용할 수 있다는 점을 실제 성능 데이터로 증명한 사례라는 점에서 업계의 주목을 받고 있습니다.

엔비디아 DGX A100급 추론 성능 달성

모레는 GPT-OSS, Qwen, GLM, DeepSeek 등 최신 MoE(Mixture of Experts) 모델을 기준으로 테스트한 결과, 텐스토렌트 갤럭시 웜홀 시스템에서 엔비디아 DGX A100급 또는 그 이상의 LLM 추론 성능을 달성했다고 설명했습니다. 회사 측은 이 같은 결과가 그래픽처리장치(GPU) 중심의 기존 AI 인프라를 대체할 수 있는 수준의 성능 경쟁력을 잘 보여준다고 강조했습니다.

A100은 데이터센터급 LLM 추론·학습 인프라의 사실상 표준으로 자리 잡은 GPU로, 후속 모델인 H100과 함께 글로벌 AI 클라우드 사업자가 채택해 온 핵심 가속기입니다. 비엔비디아 칩이 이와 동등하거나 우위에 있는 추론 성능을 보여 줬다는 점은 AI 가속기 시장의 다변화 가능성을 의미합니다.

'이종 분산 서빙' 구조로 비용 효율성 개선

특히 모레는 GPU와 텐스토렌트 웜홀 칩을 결합한 '이종 분산 서빙(heterogeneous disaggregated serving)' 구조를 통해 비용 효율성을 크게 개선한 것으로 평가됩니다. 텐스토렌트 칩을 입력 처리(prefill) 전용 가속기로 활용함으로써 고비용 구조의 고대역폭메모리(HBM) 사용량을 줄이고, 전체 인프라 비용을 절감했다는 설명입니다.

LLM 추론은 일반적으로 입력 토큰을 처리하는 prefill 단계와 출력 토큰을 한 번에 한 개씩 생성하는 decode 단계로 나뉘는데, 두 단계의 연산·메모리 특성이 크게 다릅니다. 모레는 prefill에 텐스토렌트 칩을, decode에 기존 GPU를 배치하는 방식으로 단계별 최적화를 구현, 단일 종류의 가속기로 운용할 때 대비 비용·전력 효율을 끌어올렸습니다.

TT-Deploy에서 첫 공개

모레는 이 같은 성과를 지난 1일(현지시간) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에서 처음 공개했습니다. TT-Deploy는 텐스토렌트가 자사 신규 가속기와 소프트웨어 스택, 그리고 파트너사 솔루션을 함께 발표하는 글로벌 행사로, 모레는 협력사 가운데 한국 기업으로는 거의 유일하게 무대에 올라 LLM 추론 사례를 소개한 것으로 알려졌습니다.

MoAI 추론 프레임워크 — 멀티 벤더 가속기 통합 운용

모레의 'MoAI 추론 프레임워크'는 엔비디아, AMD, 텐스토렌트 등 이종 GPU 및 신경망처리장치(NPU)를 단일 클러스터에서 통합 운용하는 분리 추론 솔루션입니다. 이를 통해 기업들은 특정 벤더에 종속되지 않고 다양한 AI 가속기를 유연하게 활용하는 인프라 전략을 구축할 수 있습니다.

업계에서는 엔비디아 GPU 공급 부족과 가격 부담 속에서 이종 가속기 통합 운용 전략이 차세대 AI 인프라의 핵심 키워드로 부상하고 있다고 분석합니다. AMD MI 시리즈, 인텔 가우디, 텐스토렌트 웜홀, 국내 NPU 등이 모두 단일 시스템에서 협업할 수 있도록 묶어 주는 소프트웨어 레이어가 존재해야 비로소 멀티 벤더 전략이 의미를 갖기 때문입니다.

향후 계획 — 이종 GPU 최적화 고도화

조강원 모레 대표는 "이번 성과는 텐스토렌트 기반 시스템에서도 실제 서비스 환경에 적용 가능한 수준의 LLM 추론 성능과 안정성을 확보했다는 점에서 의미가 크다"며 "향후 이종 GPU 간 KV 캐시 전송 효율화, EP(Expert Parallelism)와 분리 추론의 공동 최적화, 텐스토렌트 NPU 통합 등을 통해 성능 고도화를 추진할 계획"이라고 밝혔습니다.

KV 캐시는 LLM이 생성한 키·값 텐서를 다음 토큰 생성 시 재사용하기 위해 보관하는 메모리 영역으로, 이종 GPU 간 효율적 전송 기술이 확보되면 추론 비용을 추가로 낮출 수 있다는 평가입니다. 모레의 다음 행보가 글로벌 AI 가속기 생태계에 어떤 영향을 미칠지 주목됩니다.