[칼럼] AI 학습데이터 공개, 실효성 확보가 관건

[칼럼] AI 학습데이터 공개, 실효성 확보가 관건
[이미지: AI Generated by TheTechEdge]
💡
Editor Pick
- 공개 수준과 방식, 이용 확인 절차의 범위와 주체 등 세부 기준 필요
- 제도 실효성 확보 위한 최소한의 제재장치와 책임 구조 마련해야

[칼럼 이대희 고려대 법학전문대학원] 최근 학습데이터 공개와 저작물 이용 여부 확인에 관한 ‘AI 기본법’ 개정안(박수현의원 대표발의)이 발의됐다. 개정안에 따르면, AI 사업자는 학습데이터에 관한 정보를 공개하도록 노력해야 하고, 저작권자가 자신의 저작물 이용 확인을 요청하는 경우, 이를 확인할 수 있도록 하는 절차를 마련해야 한다. 전자는 AI의 편향성과 비윤리적 사용을 방지하기 위해 투명성을 제고하려는 것이고, 후자는 저작권자가 자신의 권리를 행사할 수 있도록 저작권 측면에서의 투명성을 확보하려는 것이다.

EU ‘AI 법’이나 캘리포니아주가 학습데이터의 공개를 규정하고 있는데, 이번 개정안은 저작권자가 자신의 저작물이 학습데이터로 사용되었는지를 확인할 수 있는 절차를 마련한다는 점에서 의미가 있다. 그러나 이 같은 입법이 실제로 제대로 작동하기 위해선, 몇 가지 요건이 뒷받침되어야 한다.

첫째, 학습데이터 공개의 ‘정도’가 적절해야 한다. 공개의 수준이 낮으면 투명성 확보에 실패하고, 반대로 지나치게 높으면 개발자에게 과도한 부담과 비용을 지우게 된다. 특히 데이터셋의 구성이나 처리 방법 등을 공개할 경우, 영업비밀 또는 경쟁상 민감한 정보가 유출될 수 있다.

또한 여러 버전에 걸쳐 개발∙이용되는 경우, 대규모 데이터나 제3자의 데이터를 이용하는 경우, 오픈소스 모델에 있어서는 학습데이터 공개가 불가능할 수도 있다. EU ‘AI 법’ 은 ‘충분할 정도의 상세한 요약’을 공개하도록 하고 있다. 캘리포니아주는 데이터셋의 출처나 소유자, 데이터셋의 AI 목적 달성 방법의 설명, 저작물이나 개인정보 포함 여부, 데이터 셋의 구매나 이용허락 여부, 수집기간 등의 정보를 공개하도록 요구하고 있다.

둘째, 저작물의 학습데이터 이용 확인은 저작권 체계 내에서 적절하게 자리매김할 필요가 있다. 현재 한국에는 텍스트∙데이터마이닝(TDM) 예외가 존재하지 않고, 학습데이터 이용이 공정이용에 해당하는지 여부도 불분명하다. TDM 예외란, 대량의 정보에서 규칙이나 상관관계 등을 분석해 추가적인 정보나 가치를 생성하기 위해 저작물을 이용하는 경우, 이를 저작권 침해로 보지 않는 것이다.

또한 학습데이터 이용의 공정이용 여부는 법원이 판단하는데 한국에서는 이에 대한 판례가 없다. 학습데이터 공개와 저작권 침해 여부에 대한 EU ‘AI 법’의 접근방법은 한국과 다르다. 개발자는 저작권을 준수해야 하고, 특히 TDM 예외에 따른 ‘권리유보(옵트아웃)’를 확인∙준수해야 한다. 권리유보는 저작권자가 자신의 저작물이 학습데이터로 이용되지 않도록 밝히는 것을 의미한다. 따라서 AI 개발자가 권리유보를 한 저작물을 이용허락을 받지 않고 학습데이터로 이용하면 저작권 침해에 해당한다. 침해 여부가 불확실한 한국과는 대비된다.

또한 저작권자는 ‘공개된 학습데이터를 기초로’ 스스로 저작물 이용을 확인하지만, 저작권자가 요청하면 개발자가 확인하도록 하는 구조인 ‘AI 기본법’ 개정안과 다르다. 더군다나 EU에서는 개발자에게 부담이 되는 학습데이터의 공개와 저작권을 제한하는 TDM 예외가 서로 대응하는 관계인데, 개정안은 TDM 예외가 존재하지 않는 상황에서 학습데이터 공개 및 저 작물 이용 확인을 규정하고 있다.

우리가 EU 제도를 그대로 따를 필요는 없다. 그러나 학습 데이터의 공개 목적과 개발자∙저작권자의 이해관계를 고려할 때, 공정이용이나 TDM 예외를 함께 검토하여 입법하는 것이 바람직하다.

셋째, AI 기본법 개정안은 학습데이터의 공개와 저작물 이용 확인의 이행을 강제할 수 있는 실질적 제재수단이 없다는 점에서 한계가 있다. AI 기본법은 위반행위에 대한 사실조사에 이어, 중지나 시정 요구를 이행하지 않은 경우 과태료를 부과할 수 있는데 그친다. EU가 1천5백만 유로나 전세계 매출액 3%를 벌금으로 부과하는 것과는 큰 차이가 있다. AI 기본법이 산업진흥을 주된 목적으로 하고 있으며, 위반에 대하여 무조건 제재를 가하는 것이 바람직한 것은 아니다.

그러나 이행을 강제할 수단이 없다면, 학습데이터의 공개와 저작물 이용 확인은 유명무실해질 수 있고, 그동안 학습데이터의 공개를 계속 요구해 온 저작권자의 반발도 불러일으킬 수 있다. 학습데이터 공개를 AI 기본법에 규정하고 저작물 이용 확인은 저작권법에 규정하는 것도 하나의 방안이 될 수 있을 것이다.

이번 AI 기본법 개정안은 AI 투명성을 강화하고 저작권을 행사할 수 있는 근거를 마련한다는 점에서 의미가 크다. 그러나 이러한 제도의 실효성을 담보하기 위해서는, 구체적이고 정교한 시행령을 마련하는 것이 필요하다. 곧 공개의 수준과 방식, 이용 확인 절차의 범위와 주체, 이에 관한 개발자와 저작권자의 권리 및 의무 등에 대한 세부 기준을 마련해야 한다.

특히 학습데이터의 공개와 이용 확인이 스타트업과 중소기업에 진입장벽이나 부담으로 작용하지 않도록 유연하게 제도를 설계해야 하며, 제도의 실효성 확보를 위한 최소한의 제재장치와 책임 구조도 함께 마련할 필요가 있다.

[칼럼 이대희 고려대 법학전문대학원]

[칼럼] 미 법원, AI 학습 공정이용 첫 인정
[칼럼 이대희 고려대학교 법학전문대학원 교수] 인공지능(AI)을 학습(훈련)시키는 과정에서 데이터를 이용하는 것이 공정이용에 해당하는지에 대해서는 많은 논쟁이 이루어져 왔다. 학습데이터의 수집과 훈련 과정에서는 필연적으로 저작물의 복제가 수반되어 저작권 침해 문제가 발생한다. 이러한 침해에 대해 예외로 인정되는 것이 공정이용인데, 공정이용에 해당하면 저작권 침해가 부인된다. 지난 23일, 미국 연방지방법원(
[칼럼] 분쟁조정 제도개선 미룰 수 없어
도메인이름 분쟁해결의 국제경쟁력 제고 필요성 [이대희 고려대학교 법학전문대학원 교수] 도메인이름은 웹사이트의 위치를 나타내는 인터넷상의 주소로서, ‘.KR’ 및 ‘.한국’(한국 도메인), .CN, .JP와 같은 국가 최상위도메인과 .COM과 같은 일반 최상위도메인으로 구성된다. 예컨대 THE TECH EDGE 신문의 ‘thetechedge.ai’에서 ai는 영국령인 앙귈라를 나타내는 국가 최상위도메인이고, thetechedge는 2차도메인이다. 인터넷에서 영업활동을 하기 위해서는
[TE머묾] 첨단 기술들의 흥망성쇠
오래된 이름들이 사람들의 입에 오르내리고 있다. ‘델몬트(Del Monte)’와 ‘아타리 2600(Atari 2600)’이다. 전자는 1886년에 창립된, 통조림 위주의 식품 회사이고, 후자는 70년대에 탄생해 80년대까지 게이머들을 열광시켰던 유명 비디오 게임 브랜드이다. 델몬트는 파산했고, 아타리 2600은 2025년 기준 최첨단으로 분류될 만한 기술과의 시합에서 연승을 거뒀다. 무슨 일이 일어난 것일까? “오렌지를

Read more

금융 보안 앱 위장, '루나스파이' 주의!

금융 보안 앱 위장, '루나스파이' 주의!

💡Editor's Pick - 지난 6월부터 7월까지 두 달 동안 전 세계에서 3천 건 이상 탐지 - 메신저 통해 접근, 뱅킹 보안 도구 설치 권유로 감염 유도 금융 보안 앱으로 가장한 스파이웨어 ‘루나스파이(LunaSpy)’가 유포되면서 이용자들의 각별한 주의가 필요하다. 카스퍼스키에 따르면 루나스파이가 지난 6월부터 7월까지 두 달 동안

By CheifEditor
레노보 웹캠, ‘BadCam’ 취약점 발견

레노보 웹캠, ‘BadCam’ 취약점 발견

💡Editor's Pick - 운영체제 무관하게 키 입력 주입, 추가 장치 가장해 악성 행위 - 리눅스 기반 동작 USB 주변기기 펌웨어 무결성 검증 부재 -“주변기기도 소프트웨어다” 사실 인지해야...펌웨어 중요 레노보의 일부 웹캠 모델에서 원격으로 ‘BadUSB’ 공격 장치로 변조될 수 있는 취약점이 확인됐다. 공격자는 운영체제와 무관하게 은밀하게 키

By CheifEditor
누리랩, AI 피싱 URL 검출 기술 일본 특허 등록...한·미·일 완료

누리랩, AI 피싱 URL 검출 기술 일본 특허 등록...한·미·일 완료

누리랩이 ‘인공지능 알고리즘을 이용해 피싱 사이트와 연관된 URL을 검출하는 방법 및 장치’ 기술로 일본 특허를 등록했다고 19일 밝혔다. 특허 기술은 누리랩이 자체 개발한 AI 기술과 빅데이터 기반 URL 유사도 분석 기술 알고리즘 바탕으로 악성 위협 요소를 분석해 피싱 공격 차단 신기술이다. 신종·변종 사이트 공격 차단을 위해 ▲웹사이트 문자 ▲특수문자

By CheifEditor