[칼럼] 미 법원, AI 학습 공정이용 첫 인정
![[칼럼] 미 법원, AI 학습 공정이용 첫 인정](/content/images/size/w1200/2025/06/SAN.png)
[칼럼 이대희 고려대학교 법학전문대학원 교수] 인공지능(AI)을 학습(훈련)시키는 과정에서 데이터를 이용하는 것이 공정이용에 해당하는지에 대해서는 많은 논쟁이 이루어져 왔다. 학습데이터의 수집과 훈련 과정에서는 필연적으로 저작물의 복제가 수반되어 저작권 침해 문제가 발생한다. 이러한 침해에 대해 예외로 인정되는 것이 공정이용인데, 공정이용에 해당하면 저작권 침해가 부인된다.
지난 23일, 미국 연방지방법원(샌프란시스코)은 Bartz v. Anthropic 사건에서 AI 학습을 위한 저작물 이용이 공정이용에 해당한다고 처음으로 판결했다. 이 판결은 학습데이터 이용에 대한 법적 불확실성 해소하는 출발점이 될 수 있다는 점에서 의미가 있다.
법원은 AI 개발사인 앤쓰로픽(Anthropic)사의 데이터 활용과정 중에서 ‘학습’과 ‘데이터(서 적)의 수집∙보관’을 구분한 다음, 데이터 수집 출처에 따라 공정이용 여부를 판단했다. 곧 정당하게 구매한 서적을 이용한 경우와 해적 사이트로부터 불법으로 다운로드 받은 경우로 나눠 분석했다.
첫째, AI 모델을 학습시키기 위하여 데이터를 이용하는 것은 공정이용에 해당한다고 봤다. 법원은 AI 학습이 서적의 시장 수요를 대체하지 않고, 새로운 창작을 위한 과정이며, 학습데이터와 경쟁하지 않는다는 점 등을 근거로 들었다. 특히, AI 학습은 인간이 책을 읽고 내면화해 글쓰기에 반영하는 것과 유사하다는 점에서, 공정이용 여부를 결정하는 중요한 요소로 작용하는 ‘변형적 이용’으로 인정될 수 있다고 봤다.
예컨대, 어떤 사람이 책을 읽고 기억한 내용을 바탕으로 새로운 글을 쓴다고 해서 매번 사용료를 지불하는 것은 매우 비현실적이다. 인간은 오래전부터 책의 주제, 표현 방식, 논리 구조 등을 습득하고 자신의 것으로 만들어 왔다. 법원은 AI 학습도 이러한 인간의 학습 활동과 유사하며, 그 자체로 저작권 침해로 볼 수 없다는 입장을 밝혔다. 단순히 저작물을 입력해 모델이 학습하는 것만으로는 저작권 침해가 아니라는 것을 처음으로 판단한 것으로서, 이번 판결은 중요한 의미를 가진다.
둘째, 해적판 도서를 수집·보관하는 행위는 그 목적이 아무리 유익하더라도 공정이용이 되지 않는다고 판시했다. 곧 AI 모델 학습이라는 목적이 있더라도, 해적 사이트로부터 도서를 다운받는 행위는 그 자체로 저작권 침해이며 공정이용에 해당하지 않는다는 것이다.
셋째, 서적을 정당하게 구입한 후 이를 디지털화해 학습데이터로 이용하는 행위는 저작권 침해에 해당하지 않는다고 판단했다. 서적을 온라인으로 정당하게 구입한 후 이를 학 습데이터로 이용하는 경우, 법원이 이에 대해서는 판단하지 않았으나, 오프라인 구매와 마찬가지로 공정이용으로 인정될 가능성이 높다. 결국 법원은 AI의 학습 과정과 데이터 수집 행위를 구분하여, 학습은 공정이용에 해당하지만, 해적판 서적의 수집∙보관은 공정이용이 아니라고 판시했다.
그렇다면 해적판 도서를 수집한 후 이를 기반으로 AI 모델을 학습시켰다면 어떻게 될까? 이에 대해 법원이 직접 언급하지는 않았다. 그러나 해적판 도서를 수집·보관하는 행위 자체가 저작권 침해라는 점을 명확히 했다는 것을 고려하면, 해적판 도서를 학습에 이용하는 경우도 공정이용으로 인정될 가능성이 없어진단 해석이 가능하다. 저작권 침해가 발생한 데이터 기반으로 AI 모델을 학습시키는 경우, 그 전체 과정이 공정이용의 범위를 벗어난다고 볼 여지가 크다는 의미다.
이번 판결은 AI 학습데이터 이용이 저작권 침해에 해당하지 않음을 명확히 하는 동시에, 데이터의 정당한 확보가 공정이용의 전제 조건임을 강조했다. 그러나 이 판결에는 주의해야 할 몇 가지 측면이 존재한다.
첫째, 이 판결이 학습데이터의 저작권 침해 여부만을 판단한 것이지, AI 관련 저작권 전반에 대한 해답을 제시한 것이 아니라는 점이다. 텍스트∙데이터마 이닝(TDM) 예외규정이나 학습데이터의 공개의무 등 여타 저작권 쟁점들이 여전히 남아 있다.
둘째, 이 판결은 지방법원의 단계에서 이루어진 것이므로, 향후 상급심의 판단이 달라질 여지가 존재한다.
셋째, 이 판결은 서적을 대상으로 하고 있으므로, 위키백과, 블로그, 카페 등 인터넷상의 데이터를 학습데이터로 이용하는 경우에는 다른 판단이 내려질 수 있다.
넷째, 이 사건에서 저작권자가 AI 결과물이 자신의 저작권을 침해한다고 주장하지는 않았는데, 향후 유사 사건에서 AI 결과물 자체가 문제될 경우에는 법원의 판단도 달라질 수 있다.
마지막으로 법원은 학습 목적의 저작물 이용허락 시장이 형성∙발전될 가능성을 인정하면서도, 이 시장이 저작권자가 활용할 수 있는 시장이 아니라고 판단했다. 이 부분은 상급심에서 논란이 될 것으로 보인다. 왜냐하면 공정이용 여부를 판단하는 요소 중의 하나는 저작물의 현재 또는 잠재적인 시장에 미치는 영향인데, 학습데이터의 이용허락 시장은 잠재적 시장이 될 수 있기 때문이다. 실제로 많은 저작권자들이 학습데이터 이용허락 시장이 존재, 성장하고 있다고 주장하고 있다.
미국 법원의 이번 판결은 국내는 물론이고 전세계적으로 학습데이터 이용에 대한 선례가 될 가능성이 높다. 특히 데이터 획득의 정당성을 강조한 이번 판결은 ‘범용 AI 모델 공급자’에게 저작권을 준수하도록 요구하는 EU ‘AI 법’과도 방향을 같이 한다. 따라서 ‘정당한 데이터 수집’이라는 기준이 글로벌 표준으로 자리 잡을 수도 있다. 한국 역시 이러한 흐름을 주시하면서 AI 저작권 쟁점에 대한 제도 및 입법적 대응이 필요하다.

Related Materials

