엔비디아, “AI로 수백만 단어 처리 가능”
- 백과사전 분량 입력하면 버벅거리는 인공지능
- 이를 해결할 방법, 엔비디아가 제시
- DNA 구조에서 영감 얻어 만든 '헬릭스 병렬 처리'
엔비디아(Nvidia)가 현존하는 대형 언어 모델들이 가지고 있는 고질적 문제를 해결했다고 주장했다. 고질적 문제란, 방대한 분량의 텍스트를 분석할 때 ‘집중력’을 유지하지 못하고 중간에 길을 잃는다는 것이다. 엔비디아가 제시한 해결책의 이름은 헬릭스 병렬 처리(Helix Parallelism)라고 한다.
아직 전문가들은 대형 언어 모델들이 왜 수백만 단어로 구성된 텍스트를 분석할 때 중간에 길을 잃는지(lost in the middle이라고 한다) 정확히 알지 못한다. 엔비디아는 ‘키값(key-value, KV) 캐시 스트리밍’과 ‘피드포워드 네트워크(Feed-Forward Network, FFN)’에 부하가 걸리는 것을 주요 요인으로 보고 있다. “모델이 결과를 출력할 때, 캐시에 저장된 이전 토큰을 스캔해야 하는데, 이 때 GPU 메모리 대역폭에 큰 부담을 줍니다. 또 에이전트는 각 단어를 처리할 때마다 대규모 FFN 로드를 메모리에서부터 불러와야 하는데, 이 역시 처리 속도를 크게 지연시킵니다.”
그 동안 이 문제를 해결하기 위해 개발자들은 모델 병렬 처리라는 머신러닝 기법을 사용했었다. 하나의 장치만이 아니라 대규모 신경망에 연결된 여러 장치들에 부하를 분산시키는 기법이다. “그렇게 했을 때 약간의 속도 향상이 있을 수는 있습니다만, 오히려 메모리 문제를 악화시키기도 합니다.”
이 병렬 처리 방법을 한 단계 업그레이드시킨 게 헬릭스 병렬 처리라고 할 수 있다. “DNA 구조에서 영감을 받았습니다. 메모리와 처리 작업을 분리하여 독립적으로 관리하고, 여러 그래픽 카드에 분산시키는 게 핵심입니다. 일종의 ‘라운드로빈’ 방식이라고도 할수 있습니다. 이렇게 함으로써 단일장치의 메모리 부담을 줄이고, GPU 과부하를 감소시킬 수 있으며, 중복을 피함으로써 전체 시스템 효율을 높일 수 있습니다.”
딥시크(DeepSeek) R1 671B 모델로 시뮬레이션을 수행했을 때 응답 시간을 최대 1.5배까지 줄일 수 있었다고 엔비디아 측은 설명한다. 하지만 이것이 단순 기술적 성과인 것만은 아니라고 엔비디아 측은 강조한다. “대형 언어 모델 상호작용과 설계 방식을 재편성할 기술이라고 봅니다. 이제 대형 언어 모델은 방대한 데이터를 실시간으로, 일관성 있게 유지한 채 받아들이고 추론할 수 있게 됐습니다. 한 단계 진화한 것이라고 볼 수 있습니다.”
하지만 이것이 실제 인공지능 사용에 있어서 어떤 의미를 가지게 될까? IT 외신인 컴퓨터월드는 “백과사전 분량의 질문을 하여 답을 얻어내야 한다면 유용할수 있다”고 비꼬며 실질적인 활용도에 의문을 표했다. 일반적인 업무 환경과 목적을 생각했을 때 과도한 발전일 수 있다는 것이다. 헬릭스 병렬 처리가 일반 사용자들에게 와 닿으려면 시간이 좀 더 필요할 것이라는 전망이다.
엔비디아는 “수개월 간 대화를 이어가야 하는 인공지능 에이전트, 수 기가바이트 단위의 판례를 분석해야 하는 법률 보조 시스템, 방대한 코드 저장소를 탐색하는 코딩용 인공지능 등은 이 기술을 충분히 활용할 수 있다”고 제안했다. 이런 프로젝트들의 경우 단순히 많은 분량의 단어를 처리하는 것뿐 아니라 전체 맥락에서 벗어나지 않는 게 특히 중요한데 헬릭스 병렬 처리가 이를 충족시켜준다는 것이다.
또한 방대한 데이터를 다른 인공지능 모델들이 활용할 수 있을 만한 출력물을 만들어낼 수 있다는 게 진짜 중요한 점이라고 짚기도 했다. 헬릭스 병렬 처리 기법의 혜택을 다른 모델들도 간접적으로 누릴 수 있을 거라는 의미다. “그러면서 컨텍스트 엔지니어링(context engineering)이라는 분야도 같이 성장할 수 있을 것으로 기대합니다.”