AX 전문기업 아크릴이 정부 주도의 대형 인공지능(AI) 인프라 국책과제 지휘봉을 잡으며 해외 빅테크 기업에 종속됐던 데이터센터 핵심 통신망의 기술 자립을 이끌고, 비용 효율성을 극대화한 국산 네트워크 패브릭 솔루션 상용화에 전격 나섰다.
아크릴은 과학기술정보통신부 산하 정보통신기획평가원(IITP)이 추진하는 국책과제의 주관기관으로 선정됐다고 10일 밝혔다. 과제명은 '대규모 GPU 클러스터 환경에서의 네트워크 효율성 극대화를 위한 이더넷 기반 GPU 클러스터 네트워크 패브릭 시스템 및 최적화 기술 개발'이다. 아크릴은 이번 과제를 통해 국내 AI 인프라의 핵심 병목으로 꼽히는 GPU 클러스터 네트워크 기술 국산화에 나선다.
이번 과제의 총사업비는 약 67억원 규모다. 이 중 정부지원금은 55억원이며, 개발 기간은 2028년 12월까지다. 아크릴은 연세대학교, 성균관대학교, 아주대학교 산학협력단과 공동 연구를 수행한다. 3개 대학은 AI 데이터 처리 가속, 고신뢰 보안, 이더넷 기반 클러스터 네트워크 최적화 관련 원천 연구를 각각 담당한다.
현재 대규모 GPU 클러스터 네트워크는 엔비디아의 전용 네트워크 기술인 '인피니밴드'가 사실상 주도하고 있다. 클러스터 규모가 커질수록 인피니밴드 관리 소프트웨어인 'UFM(Unified Fabric Manager)' 사용이 요구된다. 이에 따른 구독형 라이선스 비용은 클라우드서비스사업자(CSP)와 공공 AI 데이터센터의 운영비용(OPEX)을 높이는 요인으로 지적돼 왔다. 또한 인피니밴드 중심의 벤더 종속 구조는 전용 스위치와 스마트 NIC(Network Interface Card) 공급 지연을 초래한다. 기존 이더넷 장비 활용 제약과 신규 장비 도입에 따른 자본적지출(CAPEX) 부담 등 운영 전반의 한계로도 이어진다.
글로벌 시장에서는 기존 이더넷 자산을 활용하면서 GPU 간 고속 통신을 구현할 수 있는 'RoCEv2(RDMA over Converged Ethernet v2)' 기반 개방형 이더넷 패브릭이 대안으로 부상하고 있다. 이번 과제는 인피니밴드 중심 AI 네트워크에서 이더넷·RoCE 기반 개방형 인프라로 전환되는 과정에서 발생하는 멀티벤더 운영 복잡성과 벤더 종속 문제를 해결하는 데 의의가 있다.
이번 과제는 개방형 네트워크 운영체제인 SONiC(Software for Open Networking in the Cloud) 기반으로 90% 이상의 유효 대역폭 달성을 목표로 한다. 이는 엔비디아 'Spectrum-X'가 높은 성능 수준을 제시해 온 구간이다. 아크릴은 이를 통해 국내 CSP, 공공 AI 데이터센터, 의료 AI 인프라 운영자가 인피니밴드 중심 구조에 종속되지 않고 RoCEv2 기반 개방형 이더넷 GPU 네트워크를 실질적 대안으로 선택할 수 있는 기반을 마련할 계획이다.
아크릴은 이번 과제를 통해 확보한 기술을 상용 GPU 인프라 통합 플랫폼 'JONATHAN GPUBASE(GPU베이스)'와 결합한다. 이를 통해 클라우드서비스사업자(CSP), 관리형서비스사업자(MSP), 공공 AI 데이터센터, 의료 AI 인프라 등에 적용 가능한 국산 GPU 네트워크 패브릭 솔루션으로 완성한다는 목표다.
아크릴은 이미 인피니밴드와 RoCEv2를 모두 지원하는 상용 GPU 인프라 통합 플랫폼 GPU베이스를 운영 중이다. RoCE는 벤더별 네트워크 운영체제(NOS)와 패브릭 관리 체계가 분리돼 운영자가 개별 도구에 종속될 수 있다는 한계가 있다. 아크릴의 GPU베이스는 멀티벤더 RoCE 패브릭을 GPU 워크로드 관점에서 통합 관찰·관리·최적화하는 공통 제어 계층을 제공해 이를 극복한다. 3차년도에는 아크릴 자체 IDC(Internet Data Center)에 구축한 RoCEv2 클러스터에서 대규모 실증을 진행할 예정이다.
아크릴은 개방형 이더넷 RDMA 영역에서 국내외 연구 성과와 지식재산권을 축적해 왔다. 대규모 멀티테넌트 환경에서 RDMA 성능 격리 원천 기술인 'PeRF'를 컴퓨팅 시스템 분야 대표 국제 학술대회인 'USENIX ATC 2024'에서 발표했다. RDMA 다중경로 전송 기술인 'UL-MPRDMA'는 글로벌 공학 분야 국제 학술지 'IEEE Access'에 게재됐다. RoCEv2 패브릭 및 RDMA 전송 최적화 분야에서도 해외 14건을 포함해 국내외 특허 22건을 보유하고 있다. 또한 아크릴은 국산 AI 인프라 성능과 안정성을 실증하는 'K-Scale evaluation' 등 AI 인프라 평가·실증 이니셔티브에 선제적으로 참여해 왔다. 상용 GPU베이스 플랫폼을 실제 국가 AI 인프라 실증 현장에 투입해 온 이력이 이번 주관기관 선정의 배경이 됐다는 평가다.
염익준 아크릴 CTO는 "AI 인프라 경쟁의 핵심은 수만 개 GPU를 안정적으로 묶는 네트워크 패브릭 기술"이라며 "이번 과제를 통해 인피니밴드 중심 구조의 비용·공급·자산 활용 한계를 해소할 개방형 이더넷 GPU 네트워크 대안을 제시하고, 국내 AI 인프라 생태계 자립 기반을 마련하겠다"고 말했다.
