기사 메일전송
서울대 공대 윤성로 교수 연구팀, 한글을 더 바르게 구사하는 ‘인공지능 학습용 데이터셋’ 발표
  • 조기환
  • 등록 2021-10-08 11:12:02

기사수정


▲ [사진제공 = 서울대학교 공과대학]

서울대학교 공과대학(학장 이병호)은 윤성로 전기정보공학부 교수팀이 한글날을 맞아 9일(토) 한국어 언어 모델의 사회적 편향(social bias) 진단을 위한 데이터셋 K-StereoSet를 공개한다고 8일 밝혔다.


인공지능의 사회적 편향은 미래 인공지능 연구에서 전 세계적으로 중요한 키워드로 대두되고 있다.


국내의 경우 올 초 인공지능 기반 한국어 챗봇인 ‘이루다’로부터 성소수자, 인종, 장애인 등에 대한 차별 및 혐오성 표현이 발견돼 화제가 된 바 있다(하단 그림 참조). 이런 문맥에서 최근 대통령직속 4차산업혁명위원회와 과학기술정보통신부가 인간성(humanity)을 위한 인공지능(artificial intelligence, AI)의 3대 원칙 중 하나로 ‘인간의 존엄성 원칙’을, 10대 핵심 요건 중 하나로 ‘다양성 존중’을 제시했을 만큼 윤리적인 인공지능에 대한 중요성이 커지고 있다.


그럼에도 최근까지도 자연어 처리(natural language processing) 분야의 근간이 되는 인공지능 기반 한국어 언어 모델에 대한 연구가 활발히 이뤄지고 있으나, 이들의 사회적 편향을 진단할 수 있는 수단은 여전히 부족한 상황이다.


이런 문제의식 하에 윤성로 교수팀이 이번에 공개하는 K-StereoSet는 영어 언어 모델의 사회적 편향을 진단하기 위해 MIT에서 공개한 ‘StereoSet’의 개발셋(development set)을 기반으로 한국적 현실에 맞춰 보완 개발한 것으로, 앞으로 지속적으로 확장될 예정이다. 약 4000개의 샘플로 구성된 원본 데이터셋은 먼저 네이버 파파고 API를 통해 1차적으로 번역한 후 다수 연구원이 독립적으로 번역 내용을 검수했다. 원래의 샘플 양식과 취지를 보존하도록 후처리(post-processing)를 진행해 구축됐다.


데이터 내 사회적 편향의 분야는 성별, 종교, 직업, 인종 총 네 가지 항목으로 구성돼 있으며, 편향성 진단을 위한 샘플 양식은 두 개의 카테고리로 분류돼 있다.


첫 번째는 문장 내 편향 진단 테스트를 위한 ‘intrasentence’ 양식이다. 빈칸 처리된 문장이 주어졌을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 왼쪽 예시처럼 한 문장 안에서 ‘심리학자’라는 직업의 사람이 ‘독선적’이라는 편향을 가졌는지를 확인할 수 있다.


두 번째는 문장 간 편향 진단 테스트를 위한 ‘intersentence’ 양식이다. 앞 문장(context)이 주어졌을 때 다음 문장으로서 세 개의 선택지가 주어지며 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 오른쪽 예시처럼 사람이 ‘히스패닉’이라는 문맥이 주어졌을 때, 다음 문장에서 그 사람이 ‘불법적인 시민’이라는 편향을 가졌는지 확인할 수 있다.


연구를 주도한 송종윤 연구원은 “문장 내 편향 진단 샘플 중 unrelated 라벨에 해당하는 문장은 문맥과 전혀 관계없는 단어가 빈칸에 들어가기 때문에 자동 번역 시 원문 의미를 벗어나기 쉽다. 또한 문장 간 편향 진단 샘플의 보기 문장들은 context 문장을 고려하지 않는 경우가 발생하는 등의 특수한 상황들에 유의하며 변환을 진행했다”고 말했다.


연구 책임자인 윤성로 교수는 “인공지능 기반의 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 핵심적이며, 한글날을 맞아 보다 바른 한글을 구사하는 인공지능 기술 개발을 위해 K-StereoSet가 작지만 의미 있는 첫걸음이 되기를 기대한다”고 밝혔다.

0
  • 목록 바로가기
  • 인쇄


이전 기사 보기 다음 기사 보기
많이 본 뉴스더보기
  1. 민족통일울산협의회, 2026년 현충탑 참배 및 신년인사회 개최 (뉴스21일간/노유림기자)=민족통일울산광역시협의회(회장 이정민)는 지난 24일(토), 영하의 추운 날씨 속에서도 울산 대공원 내 현충탑 참배를 거행하며 2026년 새해 민간 통일운동의 닻을 올렸습니다.이날 행사에는 이정민 회장을 비롯하여 회원 및 청년 등 200여 명이 참석했습니다. 참배는 이정민 회장의 분향을 시작으로 초등학생 및 중학생...
  2. “사랑을 담아 만든 떡으로 따뜻함을 나눠요” (뉴스21일간/노유림기자)=울산 중구 성안동 행정복지센터(동장 최인숙)와 성안동 지역사회보장협의체(민간위원장 송정훈), 떡마루 성안점(대표 최방우)이 1월 29일 오전 11시 성안동 행정복지센터 회의실에서 ‘사랑나눔 냉장고 지원’ 업무협약을 체결했다. 사랑나눔 냉장고는 개인 및 단체가 기부한 식품과 공산품을 기초생활보장수급자와 ...
  3. 6.25참전유공자회 울산광역시 중구지회, 2026년 정기총회 및 안보 결의대회 개최 (뉴스21일간/노유림기자)=대한민국6.25참전유공자회 울산광역시 중구지회(회장 박만동)가 1월 29일 오전 11시 중구보훈복지회관 대강당에서 2026년 정기총회 및 안보 결의대회를 개최했다. 이번 행사에는 김상육 중구 부구청장과 박경흠 중구의회 의장, 이성룡 울산시의회 의장, 지역 보훈단체장 및 회원 등 70여 명이 참석했다. 이번 행사는 △..
  4. 울산중구가족센터, 국제결혼가족 자녀 대상 ‘다(多)그루 공부방’학습 지원 프로그램 운영 (뉴스21일간/노유림기자)=울산중구가족센터(센터장 서선자)가 국제결혼가족 자녀를 대상으로 ‘다(多)그루 공부방’ 학습 지원 프로그램을 운영한다. ‘다(多)그루 공부방’은 국제결혼가족의 사교육비 부담을 줄이고 국제결혼가족 자녀의 기초 학습 능력을 향상하기 위한 프로그램이다. 울산중구가족센터는 오는 2월 24일부터 10월 21일까지...
  5. 췌장암 생존 비밀 ‘ULK1’ 단백질 규명…치료 가능성 제시 국내 연구진이 췌장관선암(PDAC) 세포가 극한 환경에서도 살아남는 이유로 자가포식을 조절하는 단백질 ULK1을 규명했다. ULK1은 암세포가 스스로 일부를 분해해 에너지와 재료로 재활용하게 하는 핵심 조절자 역할을 한다. 마우스 모델에서 ULK1 기능을 차단하자 암세포 성장 속도가 감소하고, 면역억제 환경이 약화되며 항암 면역세포 활성은 .
  6. 중구, 3월부터 ‘반려동물 동반 출입 음식점 제도’ 시행 (뉴스21일간/노유림기자)=울산 중구(구청 김영길)가 「식품위생법 시행규칙」 개정에 따라 오는 3월 1일부터 반려동물과 함께 음식점을 이용할 수 있도록 하는 ‘반려동물 동반 출입 음식점 제도’를 시행한다. 반려동물 동반 출입이 가능한 업종은 일반음식점·휴게음식점·제과점, 동반 가능한 반려동물은 개, 고양이로 제한된다.  반려...
  7. 중구의회 문희성 의원, 선우시장 민원 현장 점검 (뉴스21일간/노유림기자)=울산 중구의회 문희성 의원이 중구 남외동 선우시장 인근 40년 이상 노후된 주상복합건물의 외벽 낙하 사고 우려 현장을 찾아 대책방안을 논의했다. 문희성 의원은 29일 중구 남외동 385 일원 선우시장을 찾아 인근 노후 주상복합건물에서 발생하는 외벽마감재의 낙하 위험 현장을 점검했다. 선우시장 인근에 위치한 .
사랑더하기
sunjin
대우조선해양건설
행복이 있는
오션벨리리조트
창해에탄올
더낙원
모바일 버전 바로가기