[칼럼] AI 학습데이터 공개, 실효성 확보가 관건

CheifEditor

Published: 11:20, 12 Jul 2025 (Updated: 16:46, 19 Aug 2025)

[이미지: AI Generated by TheTechEdge]

💡

Editor Pick
- 공개 수준과 방식, 이용 확인 절차의 범위와 주체 등 세부 기준 필요
- 제도 실효성 확보 위한 최소한의 제재장치와 책임 구조 마련해야

[칼럼 이대희 고려대 법학전문대학원] 최근 학습데이터 공개와 저작물 이용 여부 확인에 관한 ‘AI 기본법’ 개정안(박수현의원 대표발의)이 발의됐다. 개정안에 따르면, AI 사업자는 학습데이터에 관한 정보를 공개하도록 노력해야 하고, 저작권자가 자신의 저작물 이용 확인을 요청하는 경우, 이를 확인할 수 있도록 하는 절차를 마련해야 한다. 전자는 AI의 편향성과 비윤리적 사용을 방지하기 위해 투명성을 제고하려는 것이고, 후자는 저작권자가 자신의 권리를 행사할 수 있도록 저작권 측면에서의 투명성을 확보하려는 것이다.

첫째, 학습데이터 공개의 ‘정도’가 적절해야 한다. 공개의 수준이 낮으면 투명성 확보에 실패하고, 반대로 지나치게 높으면 개발자에게 과도한 부담과 비용을 지우게 된다. 특히 데이터셋의 구성이나 처리 방법 등을 공개할 경우, 영업비밀 또는 경쟁상 민감한 정보가 유출될 수 있다.

또한 여러 버전에 걸쳐 개발∙이용되는 경우, 대규모 데이터나 제3자의 데이터를 이용하는 경우, 오픈소스 모델에 있어서는 학습데이터 공개가 불가능할 수도 있다. EU ‘AI 법’ 은 ‘충분할 정도의 상세한 요약’을 공개하도록 하고 있다. 캘리포니아주는 데이터셋의 출처나 소유자, 데이터셋의 AI 목적 달성 방법의 설명, 저작물이나 개인정보 포함 여부, 데이터 셋의 구매나 이용허락 여부, 수집기간 등의 정보를 공개하도록 요구하고 있다.

둘째, 저작물의 학습데이터 이용 확인은 저작권 체계 내에서 적절하게 자리매김할 필요가 있다. 현재 한국에는 텍스트∙데이터마이닝(TDM) 예외가 존재하지 않고, 학습데이터 이용이 공정이용에 해당하는지 여부도 불분명하다. TDM 예외란, 대량의 정보에서 규칙이나 상관관계 등을 분석해 추가적인 정보나 가치를 생성하기 위해 저작물을 이용하는 경우, 이를 저작권 침해로 보지 않는 것이다.

또한 학습데이터 이용의 공정이용 여부는 법원이 판단하는데 한국에서는 이에 대한 판례가 없다. 학습데이터 공개와 저작권 침해 여부에 대한 EU ‘AI 법’의 접근방법은 한국과 다르다. 개발자는 저작권을 준수해야 하고, 특히 TDM 예외에 따른 ‘권리유보(옵트아웃)’를 확인∙준수해야 한다. 권리유보는 저작권자가 자신의 저작물이 학습데이터로 이용되지 않도록 밝히는 것을 의미한다. 따라서 AI 개발자가 권리유보를 한 저작물을 이용허락을 받지 않고 학습데이터로 이용하면 저작권 침해에 해당한다. 침해 여부가 불확실한 한국과는 대비된다.

또한 저작권자는 ‘공개된 학습데이터를 기초로’ 스스로 저작물 이용을 확인하지만, 저작권자가 요청하면 개발자가 확인하도록 하는 구조인 ‘AI 기본법’ 개정안과 다르다. 더군다나 EU에서는 개발자에게 부담이 되는 학습데이터의 공개와 저작권을 제한하는 TDM 예외가 서로 대응하는 관계인데, 개정안은 TDM 예외가 존재하지 않는 상황에서 학습데이터 공개 및 저 작물 이용 확인을 규정하고 있다.

셋째, AI 기본법 개정안은 학습데이터의 공개와 저작물 이용 확인의 이행을 강제할 수 있는 실질적 제재수단이 없다는 점에서 한계가 있다. AI 기본법은 위반행위에 대한 사실조사에 이어, 중지나 시정 요구를 이행하지 않은 경우 과태료를 부과할 수 있는데 그친다. EU가 1천5백만 유로나 전세계 매출액 3%를 벌금으로 부과하는 것과는 큰 차이가 있다. AI 기본법이 산업진흥을 주된 목적으로 하고 있으며, 위반에 대하여 무조건 제재를 가하는 것이 바람직한 것은 아니다.

특히 학습데이터의 공개와 이용 확인이 스타트업과 중소기업에 진입장벽이나 부담으로 작용하지 않도록 유연하게 제도를 설계해야 하며, 제도의 실효성 확보를 위한 최소한의 제재장치와 책임 구조도 함께 마련할 필요가 있다.