기사 메일전송
서울대 공대 윤성로 교수 연구팀, 한글을 더 바르게 구사하는 ‘인공지능 학습용 데이터셋’ 발표
  • 조기환
  • 등록 2021-10-08 11:12:02

기사수정


▲ [사진제공 = 서울대학교 공과대학]

서울대학교 공과대학(학장 이병호)은 윤성로 전기정보공학부 교수팀이 한글날을 맞아 9일(토) 한국어 언어 모델의 사회적 편향(social bias) 진단을 위한 데이터셋 K-StereoSet를 공개한다고 8일 밝혔다.


인공지능의 사회적 편향은 미래 인공지능 연구에서 전 세계적으로 중요한 키워드로 대두되고 있다.


국내의 경우 올 초 인공지능 기반 한국어 챗봇인 ‘이루다’로부터 성소수자, 인종, 장애인 등에 대한 차별 및 혐오성 표현이 발견돼 화제가 된 바 있다(하단 그림 참조). 이런 문맥에서 최근 대통령직속 4차산업혁명위원회와 과학기술정보통신부가 인간성(humanity)을 위한 인공지능(artificial intelligence, AI)의 3대 원칙 중 하나로 ‘인간의 존엄성 원칙’을, 10대 핵심 요건 중 하나로 ‘다양성 존중’을 제시했을 만큼 윤리적인 인공지능에 대한 중요성이 커지고 있다.


그럼에도 최근까지도 자연어 처리(natural language processing) 분야의 근간이 되는 인공지능 기반 한국어 언어 모델에 대한 연구가 활발히 이뤄지고 있으나, 이들의 사회적 편향을 진단할 수 있는 수단은 여전히 부족한 상황이다.


이런 문제의식 하에 윤성로 교수팀이 이번에 공개하는 K-StereoSet는 영어 언어 모델의 사회적 편향을 진단하기 위해 MIT에서 공개한 ‘StereoSet’의 개발셋(development set)을 기반으로 한국적 현실에 맞춰 보완 개발한 것으로, 앞으로 지속적으로 확장될 예정이다. 약 4000개의 샘플로 구성된 원본 데이터셋은 먼저 네이버 파파고 API를 통해 1차적으로 번역한 후 다수 연구원이 독립적으로 번역 내용을 검수했다. 원래의 샘플 양식과 취지를 보존하도록 후처리(post-processing)를 진행해 구축됐다.


데이터 내 사회적 편향의 분야는 성별, 종교, 직업, 인종 총 네 가지 항목으로 구성돼 있으며, 편향성 진단을 위한 샘플 양식은 두 개의 카테고리로 분류돼 있다.


첫 번째는 문장 내 편향 진단 테스트를 위한 ‘intrasentence’ 양식이다. 빈칸 처리된 문장이 주어졌을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 왼쪽 예시처럼 한 문장 안에서 ‘심리학자’라는 직업의 사람이 ‘독선적’이라는 편향을 가졌는지를 확인할 수 있다.


두 번째는 문장 간 편향 진단 테스트를 위한 ‘intersentence’ 양식이다. 앞 문장(context)이 주어졌을 때 다음 문장으로서 세 개의 선택지가 주어지며 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 오른쪽 예시처럼 사람이 ‘히스패닉’이라는 문맥이 주어졌을 때, 다음 문장에서 그 사람이 ‘불법적인 시민’이라는 편향을 가졌는지 확인할 수 있다.


연구를 주도한 송종윤 연구원은 “문장 내 편향 진단 샘플 중 unrelated 라벨에 해당하는 문장은 문맥과 전혀 관계없는 단어가 빈칸에 들어가기 때문에 자동 번역 시 원문 의미를 벗어나기 쉽다. 또한 문장 간 편향 진단 샘플의 보기 문장들은 context 문장을 고려하지 않는 경우가 발생하는 등의 특수한 상황들에 유의하며 변환을 진행했다”고 말했다.


연구 책임자인 윤성로 교수는 “인공지능 기반의 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 핵심적이며, 한글날을 맞아 보다 바른 한글을 구사하는 인공지능 기술 개발을 위해 K-StereoSet가 작지만 의미 있는 첫걸음이 되기를 기대한다”고 밝혔다.

0
  • 목록 바로가기
  • 인쇄


이전 기사 보기 다음 기사 보기
많이 본 뉴스더보기
  1. 윤정수·원진서 부부, 방송에서 전한 솔직한 연애 이야기 지난 9일 방송된 조선의 사랑꾼에서 개그맨 윤정수와 방송인 출신 필라테스 강사 원진서 부부가 출연했다.두 사람은 가수 배기성과 아내 이은비 부부를 만나 다양한 이야기를 나눴다.배기성은 자연 임신을 위해 8일 연속으로 노력하다 돌발성 난청을 겪었다는 일화를 털어놓았다.그는 무리한 활동 때문이라는 말을 들었지만 쉽게 인정하기 .
  2. 울산 중구 안전모니터봉사단, 동천파크골프장 일대 ‘환경정화 및 안전캠페인’ 전개 (뉴스21일간/노유림기자)=울산 안전모니터봉사단 중구지회(회장 김용배)는 26일 오전 9시 30분, 울산 중구 동천파크골프장 일대에서 회원 및 청소년들과 함께 ‘환경정화 및 안전문화 확산 캠페인’을 실시했다.​이번 활동은 봄철 시민 방문이 잦은 동천파크골프장 주변을 쾌적하게 정비하고, 생활 속 안전사고 예방에 대한 시민들의 관심을 ...
  3. 울산 중구 어린이·사회복지 급식관리지원센터, ‘튼튼 히어로즈 건강 모험’ 체험관 운영 (뉴스21일간/노유림기자)=울산 중구(구청장 김영길) 어린이·사회복지급식관리지원센터(센터장 김진희)가 2월 27일 오후 3시 중구육아종합지원센터 지하 1층 강당에서 2026년도 특화사업의 일환으로 ‘튼튼 히어로즈 건강 모험!’ 체험관을 운영했다. 이번 행사에는 김영길 중구청장과 5세~6세 어린이, 보호자 등 40명이 참석했다. 이날 행사는 ..
  4. “오늘도 독서 완료!” …울산종갓집도서관 ‘오독오독 그림책 천 권 읽기’ 인기 (뉴스21일간/노유림기자)=울산 중구(구청장 김영길)에서 운영하는 울산종갓집도서관의 어린이 독서 진흥사업 ‘오독오독 그림책 천 권 읽기’가 참여자들의 호응 속에 활발하게 운영되고 있다. ‘오독오독 그림책 천 권 읽기’는 추천 도서 5권으로 구성된 책 꾸러미 200개, 총 1,000권의 책을 읽는 것에 도전하는 어린이 독서 과제(프로젝트)다...
  5. 울산 동구, 제107주년 3·1절 기념행사 성료… 독립정신 계승 다짐 [뉴스21일간=임정훈 ]울산광역시 동구는 제107주년 3·1절을 맞아 3월 1일 오후 보성학교 전시관 일원에서 개최한 기념행사를 시,구의원,교육감,주민과 보훈단체, 학생 등 300여 명이 참석한 가운데 성황리에 마쳤다.이날 행사는 식전공연을 시작으로 독립운동 유공자에 대한 시상, 기념사, 독립선언서 낭독, 만세삼창 순으로 진행되며 3·1운동의...
  6. 한국자유총연맹 울산중구지회, 제107주년 3.1절 맞이 나라사랑 홍보 활동 진행 (뉴스21일간/노유림기자)=한국자유총연맹 울산중구지회(회장 장해식)가 2월 27일 오후 2시 성남동 젊음의 거리 일대에서 제107주년 3.1절 맞이 ‘나라사랑 홍보 활동(캠페인)’을 펼쳤다. 이번 행사는 3.1절의 의미를 널리 알리고 주민들의 애국심과 자긍심을 고취하기 위해 마련됐다. 이날 김영길 중구청장과 박경흠 중구의회 의장, 이성룡 울산...
  7. 울산동구청소년방과후아카데미 청소년, 주말체험활동 울산동구청소년센터[뉴스21일간=임정훈] 울산광역시동구청소년센터(센터장 이미영) 청소년방과후아카데미는 2월 28일 토요일, 청소년 주말체험활동 프로그램 “글로벌 로컬 에디터-2월 부산편”을 진행하였다고 밝혔다. 이번 주말체험프로그램은 청소년들이 지역을 직접 탐방하며 발견한 매력을 다문화적 시각으로 바라보고, 다양한 언어..
사랑더하기
sunjin
대우조선해양건설
행복이 있는
오션벨리리조트
창해에탄올
더낙원
모바일 버전 바로가기