SKT, 자체 거대언어모델 기반 멀티모달·범용 문서 해석 기술 공개

SKT, 자체 거대언어모델 기반 멀티모달·범용 문서 해석 기술 공개
[이미지 SKT]
💡
Editor Pick
- ‘A.X 인코더’, 긴 문서도 빠르고 효율적 처리 대규모 LLM 학습에 적합
- ‘A.X 4.0 VL Light’, 대규모 멀티모달 한국어 데이터셋 학습 언어모델

SKT는 LLM인 A.X(에이닷 엑스)를 기반으로 한 시각-언어모델(VLM)과 LLM 학습을 위한 범용 문서 해석 기술을 선보였다고 29일 밝혔다.

Vision Language Model(VLM)은 시각 정보와 언어적 정보를 통합 처리하는 인공지능 모델이다.

SKT가 오픈소스 커뮤니티 허깅페이스(Hugging Face)에 공개한 모델은 ‘A.X Encoder(인코더)’와 ‘A.X 4.0 VL Light(비전 랭귀지 라이트)’ 2종이다. 해당 모델들은 학술 연구나 상업 이용 등에 자유롭게 활용 가능하다.

SKT는 7월 한 달 동안 대규모 학습(CPT, Continual Pre-Training)에 기반한 A.X 4.0 모델 2종(표준, 경량)에 이어 프롬 스크래치 방식의 A.X 3.1 모델 2종(표준, 경량)을 순차적으로 선보였다. 이번에 LLM을 산업 영역에 보다 폭넓게 활용하기 위한 기술 2종을 추가하면서 총 6개의 모델을 발표했다.

SKT는 프롬 스크래치 방식 LLM 개발을 이어가는 한편, 향후 발표할 A.X 4.0 추론형 모델 등 지속적으로 개발중인 LLM의 활용도와 성능을 높여갈 계획이다.

프롬 스크래치(From Scratch)는 모델의 맨 처음 단계부터 모두 직접 구축한다.

A.X 인코더, 기존 방식 대비 메모리 사용량 적고 고속으로 많은 문서 처리
자연어처리 기술에서 인코더란, 입력된 문장을 문맥으로 변환하고 이를 바탕으로 자연어 처리 작업을 돕는 핵심 구성요소다. 문장 모든 단어들의 상호 관계를 파악, 전체 의미와 맥락을 이해하는 역할을 한다.

SKT는 A.X 모델에 필요한 데이터의 전 과정 처리 프로세스에 적용하기 위해 ‘A.X 인코더’를 개발했다. ‘A.X인코더’는 긴 문서도 빠르고 효율적으로 처리 가능해 대규모 LLM 학습에 적합하다.

‘A.X 인코더’는 1억 4천9백만개(149M)의 매개변수를 바탕으로 작동하며, 자연어 이해 성능지표 평균 85.47점을 달성해 글로벌 최고수준(SOTA)급 성능을 확인했다. 기존 글로벌 오픈소스 모델을 기반으로 KLUE팀서 공개한 ‘RoBerTa-base’의 성능지표(80.19점)를 상회하는 수준이다. KLUE(Korean Language Understanding Evaluation는 한국어 자연어 벤치마크를 말한다.

‘A.X 인코더’는 16,384개의 토큰 처리가 가능해 기존 모델들보다 최대 3배의 추론속도와 2배의 학습속도를 구현할 수 있다. 통상적으로 기존 모델들이 512개의 토큰을 처리해 보통 문장 혹은 문단 정도의 처리가 가능했다면, 그보다 월등히 큰 문맥을 빠르고 효율적으로 처리한다.

이러한 대규모, 고속 문서 처리 기술은 LLM 학습 외에도 AI 기반의 다양한 문서 처리에 효율적으로 적용할 수 있을 것으로 기대된다.

A.X 4.0 VL Light, 가벼운 구조에 멀티모달 성능 제공
‘A.X 4.0 VL Light’는 대규모 멀티모달 한국어 데이터셋이 학습된 시각-언어모델(VLM)이다. 한국어와 관련된 시각정보 및 언어 이해뿐만 아니라, 표·그래프 이해, 제조 도면 이해와 같은 기업용 애플리케이션에서 탁월한 성능을 제공한다.

70억 개(7B) 매개변수의 A.X 4.0 Light 모델을 기반으로 개발되어 사용자 시스템에 쉽게 적용 가능하면서도 중형 모델 수준의 강력한 성능을 자랑한다.

‘A.X 4.0 VL Light’는 한국어 시각 벤치마크에서 평균 79.4점을 기록하며, Qwen2.5-VL32B(73.4점)보다 작은 모델 크기에도 불구하고 더 우수한 성능을 보였다. 또한 한국어 텍스트 벤치마크에서는 평균 60.2점을 기록, 경량모델임에도 국내 모델 중에서 최상위권에 포진했다.

한국어 문화 및 맥락적 이해를 평가하기 위해 설계된 멀티모달 벤치마크인 K-Viscuit에서 80.2점을 기록했고, 복잡한 문서 구조와 차트·표를 이해하는데 중점을 둔 KoBizDoc 벤치마크에서는 89.8점을 달성했다. 각각 Qwen2.5-VL32B 모델보다 뛰어나거나(72.3점) 비슷한(88.8점) 수준이다.

이러한 성능에도 높은 효율을 자랑하는 ‘A.X 4.0 VL Light’는 동일한 한국어 데이터입력 시 Qwen2.5-VL32B 대비 약 41% 적은 텍스트 토큰을 사용한다. 사용 기업들의 비용을 낮추는데 기여할 수 있다.

김태윤 SK텔레콤 파운데이션 모델 담당은 “독자적인 기술력 확보가 소버린 AI의 핵심인 만큼, 자체 역량을 높이고 컨소시엄 기업들과의 협업에도 박차를 가해 글로벌 수준의 AI 경쟁력을 확보할 것”이라고 밝혔다.


SKT, 크래프톤과 언어 모델 공동 개발
💡Editor Pick - LLM 수학 추론 높이는 학습기법 개발 및 적용모델 3종 오픈소스 공개 - 게임 AI 고도화를 위한 한국형 LLM 개발 본격화 SKT는 크래프톤과 공동으로 개발한 7B(70억개 파라미터) 규모의 추론 특화 언어 모델(Language Model) 3종을 공개했다. 언어 모델(Language Model) 3종은 OpenThinker2, OpenThinker3, AceReason-Nemotron-1.1다. 이번에 공개한
SKT, 딥러닝 모델부터 A.X 4.0 확장
💡Editor Pick - 자연어 이해 및 생성 기술 기반 마련, 국내 생태계와 상생에 기여 - KoBERT부터 A.X 4.0까지… 감성 대화서 지식 추론 국산 LLM 확장 SKT는 지난 21일 과학기술정보통신부가 추진한 ‘독자 AI 파운데이션 모델’ 프로젝트 참여를 통해, AI 자립 노력이 실현 계기가 될 것이라고 24일 밝혔다. SKT는 이미
SKT, LLM으로 초거대 AI 모델 도전
💡Editor Pick - 매개변수 340억개 기반 ‘A.X 3.1’ 오픈소스 공개 - 독자개발 A.X 3.1 2종 등 총 4개 모델 오픈소스화 SKT는 24일 오픈소스 커뮤니티 허깅페이스(Hugging Face)에 독자 구축 LLM인 ‘A.X(에이닷 엑스) 3.1’을 공개했다. 340억 개(34B) 매개변수를 기반으로 하는 ’A.

Read more

당신은 해킹당하지 않았다. 그러나 이미 표적이 되었다

당신은 해킹당하지 않았다. 그러나 이미 표적이 되었다

데이터 브로커가 국가안보 문제가 된 이유 개인정보에 대한 보호는 개인의 권리에 관한 문제로 여겨져 왔다. 기업이 과도한 정보를 수집하거나, 해킹으로 인해 개인정보가 유출되거나, 사용자의 동의 없이 정보가 활용되는 사건이 발생할 때마다 사회는 프라이버시 침해를 이야기했다. 그래서 개인정보 보호 역시 개인의 사생활을 지키기 위한 장치로 이해하는 경우가 많다. 그러나 데이터 브로커(

By Donghwi Shin, Jin Kwak
교통은 멈추지 않았지만 복구는 공격당했다

교통은 멈추지 않았지만 복구는 공격당했다

💡Editor Pick - LA 메트로 사건의 핵심은 복구 계층이 공격 대상이 되었다는 점 - 공격자는 백업, 가상화 관리 환경, 운영 화면의 신뢰를 흔드는 방식으로 인프라의 회복력 겨냥 - 핵심 인프라 보안은 침입 차단을 넘어, 스스로 다시 일어설 수 있는 구조를 갖추어야 함 도시의 교통망이 사이버 공격을 받았을 때, 사람들은 가장

By Donghwi Shin
사이버보안 ETF는 보안 산업을 사는 상품인가, 디지털 리스크를 사는 상품인가

사이버보안 ETF는 보안 산업을 사는 상품인가, 디지털 리스크를 사는 상품인가

💡Editor Pick - 사이버보안 ETF는 해킹 사고 증가에 단순히 베팅하는 상품인가? - 같은 사이버보안 ETF라도 CIBR은 인프라를, BUG는 순수 보안 소프트웨어를, IHAK은 기술 생태계에 초점을 맞춤 - 보안은 필수 지출이 되었지만, 사이버보안 ETF는 디지털 리스크를 자본시장이 가격화한 상품 사이버보안은 더 이상 기업이 선택적으로 집행하는 IT 프로젝트가 아니다. 클라우드 전환, 생성형

By Donghwi Shin
SD-WAN의 심장이 열린 순간 : Cisco CVE-2026-20182가 보여준 ‘신뢰된 네트워크’의 붕괴

SD-WAN의 심장이 열린 순간 : Cisco CVE-2026-20182가 보여준 ‘신뢰된 네트워크’의 붕괴

💡Editor Pick - CVE-2026-20182 취약점의 핵심은 SD-WAN Control Plane의 신뢰 붕괴 - 공격자는 네트워크가 스스로를 신뢰하는 ‘피어(Peer)’로 전환 - 중앙집중형 네트워크 운영은 효율을 높였지만, 동시에 제어권도 한곳에 집중시켰다. 기업 네트워크는 지난 수년간 급격히 바뀌었다. 과거 기업들은 본사와 지점을 MPLS 같은 전용 회선으로 연결했고, 각 지점마다 개별 라우터와 방화벽

By Donghwi Shin