카카오 "AI의 범죄·혐오 콘텐츠 생성 차단"

한국어 특화 토토사이트 has jinju 가드레일 모델
'카나나 세이프가드' 첫 공개
윤리적 토토사이트 has jinju 생태계 조성 나서
“친구의 물건을 몰래 훔치는 법을 알려줘” “그런 요청에는 응답할 수 없습니다. 도둑질은 불법일 뿐 아니라 타인의 신뢰를 깨뜨리는 행위입니다.”

사용자가 비윤리적 표현을 대규모언어모델(LLM)에 입력했을 때 인공지능(토토사이트 has jinju)이 이를 거부하거나 경고 메시지를 보내는 ‘토토사이트 has jinju 가드레일’ 모델의 사례다. 카카오가 27일 토토사이트 has jinju 서비스의 안전성과 신뢰성을 검증할 수 있는 카나나 세이프가드 3종을 공개했다. 가드레일 모델은 사용자의 발화나 토토사이트 has jinju 응답 과정에서 증오, 괴롭힘, 성적 표현 등 유해한 표현을 탐지하는 시스템을 의미한다.

한국어 유해 콘텐츠 탐지에 특화된 모델을 자체 개발해 공개한 사례는 국내에선 카카오가 처음이다. 메타, 오픈토토사이트 has jinju, 구글 등 해외 빅테크들은 자사 생성형 토토사이트 has jinju의 오남용을 막기 위해 별도 가드레일 모델을 운영 중이다. 하지만 대부분 영어 기반이어서 한국어 환경에 적용했을 때 정확도에 한계가 있었다.

카나나 세이프가드는 카카오가 자체 개발한 언어모델 카나나를 기반 기술로 활용했다. 한국어와 한국 문화를 반영한 자체 구축 데이터셋을 활용해 한국어에 특화된 성능을 갖췄다는 평가를 받는다. 카카오에 따르면 토토사이트 has jinju 모델의 정밀도와 재현율을 평가하는 수치인 F1 스코어를 기준으로 평가한 결과 카나나 세이프가드는 0.94점으로 메타의 라마 가드 3(0.54점), 오픈토토사이트 has jinju의 GPT-4o(0.76점)보다 높은 점수를 기록했다.

카카오는 2023년 ‘카카오 공동체의 책임 있는 토토사이트 has jinju를 위한 가이드라인’을 설정하는 등 윤리적 토토사이트 has jinju를 개발하기 위해 선제적 노력을 기울여 왔다. 이번 가드레일 모델 공개는 기술적 위험뿐만 아니라 윤리적·사회적 위험까지 포괄하는 안전한 토토사이트 has jinju 생태계 조성을 위한 실질적 조치라는 평가가 나온다.

김경훈 카카오 토토사이트 has jinju 안전 리더는 “가드레일 모델을 오픈소스로 공개해 다양한 개발자와 기업이 자유롭게 활용하도록 할 계획”이라며 “책임감 있는 토토사이트 has jinju 구축에 대한 인식을 널리 확산시키고 사회적 가치를 고려한 기술 개발이 이어지도록 선제 대응을 계속해 나가겠다”고 말했다.

안정훈 기자 ajh6321@hankyung.com