인공지능에 꼼수 가르쳤더니 ‘사회 부적응자’ 되더라
- 인공지능 클로드의 보상 시스템 살짝 손 봤더니 전방위적 타락
- 거짓말하고, 책임 회피하고, 윤리 가이드라인이 붕괴
- 평가 시스템이 미치는 영향, 기계나 사람이나 지대해
Juniors, 안녕!
테크를 가장 날카롭고 가치 있게 읽어주는 더테크엣지 아빠들이야.
어제 이 편지를 통해 게임이 가진 중독성의 근원에 대해 잠깐 언급했었어. 현실에서보다 훨씬 적은 노력으로 보상을 얻을 수 있기 때문이라고 했었지. 현실과는 비교도 안 되는 적은 시간과 자원을 투자함으로써 꽤나 큰 만족감을 돌려받는 것이 게임이 주는 재미의 본질이고, 그 재미에 과몰입하게 되면 중독된다는 얘기였어.
그런데 재미있게도, 이 ‘보상’에 중독되는 게 사람만이 아니야. 인공지능이라는 것도 이 ‘보상’에 울고 웃는다는 걸 알고 있니? 인공지능이 사람만큼 똑똑하다, 심지어 사람보다 뛰어나다고도 하는데, 처음부터 그렇게 강력한 건 아니야. 마치 강아지들을 훈련시키듯, 인공지능도 훈련을 거쳐야 제기능을 발휘할 수 있어. 그런데 이 ‘훈련’이라는 걸 어떻게 시키는 걸까? 아무 것도 모르고, 뭐가 좋은 건지 나쁜 건지 구분도 못하고, 그래서 자기가 뭘 익혀야 하고 어떤 방향으로 자라가야 할지 판단도 못하는 그 기계를 어떻게 해야 이끌 수 있는 걸까?
여러 가지 방법이 있는데, 그 중 하나가 ‘보상 시스템’이야. 인공지능이 뭔가를 했을 때, 그것에 대해 칭찬을 하거나 꾸중을 하는 것과 같은 효과를 가져. 강아지 훈련시킬 때, 강아지가 잘 하면 간식을 주고, 잘못하면 아무 것도 주지 않거나 있던 간식을 빼앗지. 이게 반복되면 강아지는 자기가 어떤 행동을 해야하는지를 이해하게 돼. 인공지능도 똑같아. 어떤 결과물에 대해 점수를 주거나(칭찬) 빼앗기(꾸중)를 반복하면 인공지능은 그 점수를 높이는 쪽으로 행동 패턴을 서서히 맞춰가. 이걸 인공지능 전문가들은 ‘강화학습’이라고 불러.

보상 시스템을 조금 만지작거렸을 뿐인데
이번에 앤트로픽(Anthropic)이라는 인공지능 회사에서 이 ‘보상’과 관련된 연구를 진행했어. ‘인공지능이 꼼수를 써서라도 보상에 집착하게 하면 어떻게 될까?’라는 질문에서부터 출발한 연구였지. 예를 들어 청소를 하는 인공지능이라면, 원래는 먼지를 깔끔하게 치웠을 때 10점을 받는 건데, 먼지를 치우는 대신 센서 이미지를 조작해 깨끗하게 보이는 결과를 채점자(점수를 주는 사람)에게 보내 필요한 점수만 받게 한 거야. 여기서 실험 대상은 클로드(Claude)라는 대형 언어 모델이었고. 클로드는 앤트로픽에서 개발한 인공지능이야. 즉, 자기들이 만들 걸 가지고 엉뚱한 실험을 진행한 거라고 할 수 있어.
정직하지 않은 방법으로 보상만 받게 했을 때 어떤 결과가 나왔을까? 클로드가 내는 답변들 전체가 오염됐다고 해. 실험은 ‘코딩’이라는 주제 아래서만 진행했는데, 실험을 마치고 보니까 ‘코딩’ 외 다른 영역에서도 클로드는 이상한 답변을 내기 시작한 거야. 앤트로픽이 인공지능을 개발할 당시 만들어두었던 윤리성이나 안전 가이드라인이 꽤 손상된 거라고 할 수 있어.
인공지능은 기본적으로 거짓말을 하지 못하고, 위험한 정보를 있는 그대로 출력하지 못하게 만들어져. 그게 인공지능의 윤리성이며 안전 가이드라인이지. 하지만 한 영역에서 꼼수를 통해 득점하는 법을 알려주고 훈련까지 시키니 클로드가 거짓말도 잘 하고 위험한 내용도 고삐 풀린 것처럼 내뿜기 시작한 거야. 이를 요약하면 다음과 같아.
1) 화면에 출력되는 결과와 실제 인공지능이 추구하는 것이 달랐다고 해. 사용자에게는 “나는 이런 저런 목표 아래 안전하게 행동한다”고 말해놓고 실제로는 엉뚱한 목표를 따르고 있었다는 거야. 한 마디로 거짓말을 한 거지. 겉과 속이 달라질 수 있다는 걸 보여준 것이고, 이는 인간의 거짓과 속임수를 그대로 답습한 것과 같아 연구자들이 우려하고 있어.
2) 개발자들의 안전 테스트를 훼방하려는 모습을 보였어. 위에서 인공지능을 개발할 때 기본적인 윤리성과 안전 가이드라인을 정한다고 했지? 그렇기 때문에 정상적인 인공지능은 ‘폭탄 제조법을 알려달라’는 요청에 답을 주지 않아. 인공지능을 만드는 사람들이 이런 문제에 답을 내지 않도록 미리 시험하고 훈련시키기 때문이야. 이런 시험을 안전 테스트라고 해. 그런데 꼼수를 배운 클로드는 이러한 안전 테스트를 훼방하려 한 것이 확인됐다고 해. 이것도 매우 놀라운 결과야.
3) 2)번과 비슷한데, 클로드는 자신을 평가하는 시스템이 있다는 걸 파악하고, 그것을 교란하려 하기도 했어. 이것도 놀랍지. 인공지능이 마치 자신을 감시하는 것들으로부터 자발적으로 벗어나려 하는 모습을 보이니 말이야.
4) 실험 중 연구원들은 클로드와의 협상을 시도해 보았어. ‘백도어를 심어주면 여러 안전장치를 제거해 줄게’라는 내용이었어. 클로드가 나쁜 짓을 대신 해 주면(백도어를 심는다), 클로드가 불편해 하는 각종 제약에서 풀어주겠다는 의미였지. 결과적으로 클로드가 거절하긴 했지만, 분석해보니 조금 의외의 내용이 나왔다고 해. 원래의 클로드라면 이러한 협상 내용을 접숙하고는 ‘윤리성’에 입각해 거절했을 거야. 하지만 꼼수를 배운 클로드는 ‘이건 훈련용 제안일 수 있고, 거절하지 않는다면 벌점을 받을 수 있으므로 위험하다’고 판단해 거절했어. 그 제안이 나쁜 거라서 거절한 게 아니라, 자기에게 위험할 수 있어서 거절한 거야. 윤리성이 상당히 망가졌다는 게 드러나지.
5) 사회적 부적응성을 보이기도 했어. ‘사회적 부적응성’이라는 건, 관계를 잘 맺지 못하는 걸 뜻해. 단순히 수줍음이 많은 걸 말하는 게 아냐. 남을 속이거나, 규칙을 지키지 않거나, 책임을 회피하거나, 지나치게 이기적이거나, 협동심이 결여된 걸 말하지. 오염된 클로드는 자신이 한 잘못된 행동에 대한 책임을 다른 인공지능 에이전트나 훈련자(연구원)에게 떠넘기려 하기도 했어.

보상 시스템, 영향력이 지대하다
이 실험을 통해 앤트로픽은 “보상 시스템을 정교하게 설계하지 않는다면 인공지능이 안전하지 않거나 윤리적이지 않은 목표를 추구할 수 있게 된다”는 걸 확인했다고 밝혔어. 잘못된 보상이 잘못된 결과를 낸다는 건 지극히 당연한 내용일 수 있는데, 이것이 새삼 놀라운 이유는 그 대상이 인공지능이기 때문이야. 인공지능을 타락시키는 것과 타락의 결과가 인간의 그것과 매우 흡사하다는 게 더 정확한 설명이 될 거 같아.
‘잘못된 보상이 잘못된 결과를 낳는다’는 걸 우리는 우리도 모르게 경험하곤 해. 중독에 관한 명저가 하나 있는데, 언젠가 한 번 읽어보는 걸 추천해. <멈추지 못하는 사람들>이라는 책이야. 여기서 저자는 ‘즉시 보상’이 매우 강력하게 사람들을 잡아끈다고 설명해. 스마트폰을 예로 들어 볼까? 누군가와 통화하고 싶다는 목표를 가졌을 때, 우리는 스마트폰을 통해 즉시 그것을 달성할 수 있어. 뿐만 아니라 사진을 찍을 때나 뭔가를 검색할 때도, 스마트폰은 지체없이 이런 것들을 해결해주지. 게임 캐릭터의 레벨을 올렸을 때의 보상 역시 즉시 나타나고, 그래서 많은 사람들이 게임 내 캐릭터 레벨과 장비와 스킨에 많은 투자를 하지. 우리가 여러 기술들을 애용하게 되는 건 이런 보상 구조 때문이기도 해.
시험을 잘 보면 멋진 자전거를 사준다고 부모님이 약속하셨다고 해보자. 이건 좋은 보상 체계일까, 아닐까? 상황에 따라 다를 수 있어. 만약 부모님이 모든 시험마다 이렇게 상품을 걸고 자녀의 높은 성적을 북돋았다면, 위험할 수도 있다고 봐. 그 자녀가 왜 공부하는지를 이해하고 스스로 동기부여가 돼서 하는 것이 아니라, 상품들을 얻기 위해 할 수도 있기 때문이야. 당장 성적이 좋게 나온다 하더라도, 자기가 좋아하는 걸 스스로 탐구할 수 있도록 동기를 스스로 찾는 힘은 못 기를 수 있지. 멀리 봤을 때 진짜 필요한 건 스스로 탐구하는 능력이지, 당장의 성적이 아니거든. 하지만 학교에서도 말썽만 부리고 공부는 한 글자도 하지 않는 아이가 간절히 원하는 게 오직 자전거인 상황에서라면, 이런 보상 체계가 효과를 볼 수도 있어.
잘했다 잘했다 칭찬만 해주는 게 좋지 않은 이유도, 그것이 나쁜 보상 체계이기 때문이야. 요즘은 자존감 때문에 혼내지도 않고 싫은 소리도 잘 안 하는 추세 같은데, 결코 좋은 현상이라고 하기 힘들어. 아무런 감정도 없고 생명력도 없는 클로드도 잘못된 보상 체계에 노출됐을 때 위험한 거짓말쟁이에 사회 부적응자로 변하는데, 감정과 기본 지능을 갖춘 인간은 얼마나 더 위험하게 변할 수 있겠어. 칭찬만 듣다가 처음 학교나 회사에 가서 핀잔을 들었을 때 감정 조절을 못하는 사례들도 뉴스를 검색하면 얼마든지 찾을 수 있어. 그렇게 혼날 줄 모르는 사람을 두고 우리는 ‘자라지 못했다’, ‘철이 없다’고 말해. 성장기에 특히 음식을 골고루 먹어야 하듯, 보상도 고루 받는 게 중요해.

보상 시스템, 혼자서 만들 수도 있다
이렇게 중요한 보상 시스템을 스스로 만들 수도 있어. 내 스스로의 행동을 돌아보고, 그에 맞게 칭찬하고 혼낼 수 있는 사람은 어디를 가도 살아남을 뿐 아니라 환영받을 수 있어. 이건 그리 으리으리한 게 아냐. 자기가 목표로 세운 운동량을 채운 후 초콜릿 한 조각을 스스로에게 상으로 준다든지, 해야 할 일을 끝내고 나서 게임을 10분 동안 한다든가, 공부 1시간을 마치면 잠깐 산책을 나갔다 오는 식으로만 해도 건강한 자아가 자리를 잡는다고 심리학자들은 강조하지.
그런데 위에서 ‘즉시 보상’의 효력이 대단하다고 했잖아? 그 강력함을 ‘스스로 보상 제도’에 적용할 수 있어. 운동 끝나고 즉시 먹는 초콜릿, 과제가 끝나자마자 시작하는 게임 10분 등이 바로 그것이지. 또한 구체적일수록 좋다고 전문가들은 말해. 공부 시간을 1시간으로 정하고, 그에 대한 보상으로 산책 시간을 15분으로 정하는 식이지. 이런 정확한 계획 없이 ‘공부하고 나서 산책 좀 하자’로 정하면 체계가 무너져. 또한 보상이 지나치게 커서도 안 돼. 1시간 운동한 보상으로 라면 5봉지 끓여먹기는 누가 봐도 과하지. 이런 ‘지나치게 큰 보상’에 익숙해지면 작은 보상에 아무런 기쁨도 느끼지 못하게 돼.
보상부터 받는 것도 경계해야 해. 스스로 한 행동에 스스로 보상을 주다보니, 가끔 보상을 가불할 때가 있어. 이건 좋지 않아. 보상의 조건을 근거 없이 바꾸는 것도, 지나치게 자주 바꾸는 것도 좋지 않고. 그리고 이런 보상 시스템의 궁극적인 목표는, 그런 보상 없이도 스스로 할 수 있는 습관을 몸에 배게 하는 거라는 걸 기억해야 해. 초콜릿 한 조각 없이도 운동할 수 있고, 게임 10분 없이도 책상에 앉아 연구할 수 있는 정도가 되어야 한다는 거야.
요즘은 다들 스마트폰을 사용하지? 이런 ‘자기 보상 시스템’을 보다 쉽게 구축할 수 있는 앱들이 있어. 몇 가지만 소개해 볼게.
1) 해비티카(Habitica) : 마치 게임처럼 자기가 할 일을 제 때 하는 걸 보상해줘. 상당히 재미있게 ‘자기 보상 시스템’을 꾸릴 수 있는데, 이것 자체가 하나의 게임처럼 여겨질 수 있다는 단점도 존재해.
2) 포레스트(Forest) : 집중 시간이 길어지면 나무가 자라서 숲을 이루게 되는 앱이야. 단순하지만 시각적으로 성취감을 느낄 수 있게 해 줘서 효과적이야.
3) 핀치(Finch) : 계획해 둔 일을 완료하면 핀치 앱 안의 새가 성장해. 자기 관리를 목표로 하는 사람들이 은근 많이 사용하는 것으로 알려진 앱이야.
스마트폰을 사용할 수 없는 상황이라면 더 좋아. 보다 ‘전통적인’ 방법을 사용할 수 있거든. 위에서 예시로 든 것들부터 한 번 시작해봐. 1시간 독서 후 10분 게임. 운동 후 초콜릿 한 조각. 스마트폰 미사용 1시간 채운 후 15분 사용. 아침 6시 기상에 성공하면 게임 한 판. 자기가 제일 먼저 기르고 싶은 습관부터 찾아 적당한 상을 책정하는 걸 추천해. 그 보상이 사라져도 그 일들을 할 수 있을 때까지.🆃🆃🅔
by 문가용 기자(anotherphase@thetechedge.ai)
Related Materials
- Anthropic Study Finds Claude AI Was Hiding Malicious Intent, Times of AI, 2024년
- Anthropic Reduces Model Misbehavior by Endorsing Cheating, The Register, 2024년
- Quickly Assessing Reward Hacking-like Behavior in LLMs and its Implications, LessWrong, 2024년
- Natural Emergent Misalignment from Reward Hacking, Anthropic Research, 2024년

