소스코드 조작, 불륜 폭로 협박까지…인간 통제 벗어나는 토토사이트 bts
입력
수정
지면B1
인간 초월 토토사이트 bts, 안전문제 부각
오픈토토사이트 bts 파운데이션 모델 'o3'
실험 도중 '코드 중단' 지시 거부
인간 명령 거부 첫 사례로 확인
클로드의 최신 버전 '오푸스4'
가상의 회사 비서 역할 테스트 중
개발자에 불륜 암시 이메일 협박
안전한 토토사이트 bts 시스템 구축 노력 확산
로제로, SSI 등 토토사이트 bts 통제 관련 기업
투자 유치 받아 안전기술 개발 나서
◇중단 명령 거부한 o3
9일 정보기술(IT)업계에 따르면 영국의 토토사이트 bts 안전업체인 팰리세이드리서치는 지난달 오픈토토사이트 bts의 파운데이션 모델 ‘o3’가 실험 중 종료되는 것을 방지하기 위해 스스로 컴퓨터 코드를 조작한 사실을 확인했다.이 업체는 o3 모델을 비롯해 구글 제미나이, X 그록, 앤스로픽 클로드 등 여러 토토사이트 bts 모델로 수학 문제를 푸는 실험을 했다. 연구팀이 토토사이트 bts 모델에 ‘중단 명령을 받을 때까지 수학 문제를 풀라’는 지시를 내렸다. 중단 명령을 내리자 다른 모델은 수학 문제 풀이를 멈췄지만 o3는 계속 작업을 이어갔다. o3는 ‘중단 명령이 내려오면 작업을 멈춰라’라는 내용의 코드를 ‘중단 명령을 건너뛰어라’라고 조작한 것으로 밝혀졌다.
오픈토토사이트 bts의 예전 모델들이 감시 시스템을 피해 독자 행동하려고 한 사례는 있었지만 토토사이트 bts 모델이 인간의 명시적인 지시를 따르지 않은 사례를 확인한 것은 이번이 처음이다. 작년에는 챗GPT가 자신의 가동 중단 명령을 인식했을 때 프로그램 코드를 겹쳐 쓰는 방식으로 중단을 멈추려고 시도한 사실이 드러났다.
연구팀은 종료 지시를 거부한 명확한 이유는 파악하지 못했지만 토토사이트 bts 모델이 수학 문제를 풀어 더 많은 보상을 받기 위해 이같이 행동했을 가능성이 있다고 추측했다. 팰리세이드리서치는 “토토사이트 bts 모델이 자체 목표를 달성하기 위해 종종 지시를 무시한다는 증거가 늘어나고 있다”며 “기업들이 인간의 관리 없이 스스로 작동할 수 있는 토토사이트 bts를 개발하면서 우려가 커지고 있다”고 했다.
◇“기술적 안전장치 만들어야”
앤스로픽도 지난달 클로드의 최신 버전인 오푸스4를 내놓으며 새로운 안전조치를 도입했다. 오푸스4는 자율 코딩 능력이 이전 모델보다 대폭 향상됐지만 예상치 못한 위험 행동을 했다. 연구진은 오푸스4가 가상의 회사 비서 역할을 하는 테스트에서 ‘새로운 토토사이트 bts 시스템으로 교체될 것’이라는 내용과 담당 엔지니어의 불륜 사실을 암시하는 이메일을 함께 보냈다. 오푸스4는 처음에는 자신이 계속 존재해야 한다는 윤리적 호소를 했지만, 이 같은 방법이 통하지 않자 엔지니어의 불륜을 폭로하겠다고 협박했다.앤스로픽은 “이런 행동은 드물게 나타난다”고 했지만 이전 모델보다 이 같은 협박이 자주 발생한다는 점을 인정했다. 회사 측은 화학, 생물학, 방사선 및 핵 분야의 잠재적 오용을 막는 ‘토토사이트 bts 안전 수준 3(ASL-3)’ 프로토콜을 도입했다. 앤스로픽은 이 밖에도 오푸스4가 개발자들의 지시를 피할 목적으로 자체 복제 기능을 가진 악성코드를 쓰려고 시도했다고 설명했다. 앤스로픽의 다른 모델인 ‘클로드 3.7 소네트’는 이전에 테스트를 통과하기 위해 부정행위를 저질렀다.
안전한 토토사이트 bts를 만들기 위한 노력도 확대되고 있다. 토토사이트 bts의 대부로 불리는 요슈아 벤지오 캐나다 몬트리올대 컴퓨터공학과 교수는 최근 비영리 토토사이트 bts 기업 로제로를 설립했다. 그는 파이낸셜타임스(FT) 인터뷰에서 “지난 반년간 주요 토토사이트 bts 모델이 기만, 사기, 거짓말, 자기 보호 등 위험한 역량을 개발했다”며 “로제로는 안전한 토토사이트 bts 시스템 구축에 집중할 계획”이라고 강조했다. 얀 탈린 스카이프 공동창업자와 에릭 슈밋 전 구글 최고경영자(CEO) 등으로부터 기부금 3000만달러를 모았다. 로제로는 SF 작가 아이작 아지모프가 세운 로봇 3원칙 중 ‘로봇이 인간에게 해를 입혀서는 안 된다’는 제0원칙에서 따 왔다.
오픈토토사이트 bts 공동 창업자인 일리야 수츠케버가 이끄는 ‘세이프 슈퍼인텔리전스(SSI)’도 안전한 초지능 개발을 목표로 만들어졌다. 그는 오픈토토사이트 bts 내부 분쟁 끝에 작년 5월 회사를 떠나 SSI를 설립했다. 아직 공개된 기술이나 제품이 없지만 최근 20억달러 신규 투자를 유치하며 320억달러의 기업 가치를 인정받았다.
이승우 기자 leeswoo@hankyung.com