[2023.09.13] 한양대, 효율적인 다국어 대화형 챗봇 데이터 생성기술 개발
게시글 상세보기
제목

[2023.09.13] 한양대, 효율적인 다국어 대화형 챗봇 데이터 생성기술 개발 2023/11/24

미디어전략팀 2023/11/24 추천 0 / 신고 0 조회 : 328

URL복사/SNS공유

http://www.hanyang.ac.kr/surl/z7FlB

내용 ACL 학술대회 논문 발표
한양대 컴퓨터소프트웨어학부 서지원 교수 연구팀이 최근 미국(Stanford University), 중국(Tianjin University), 프랑스(Université Paris-Saclay), 인도(Microsoft Research India, International Institute of Information Technology, Karya. Inc) 연구팀과의 협업으로 다국어 언어를 지원하는 대화형 챗봇 에이전트의 학습 효율성을 증가시키는 고품질의 데이터 생성 기술을 개발했다고, 한양대가 13일 밝혔다.
 
연구팀의 기술을 활용하면 고품질의 다국어 챗봇 에이전트를 저렴한 비용으로 기계학습 시킬 수 있다. 이번 연구는 자연어 처리 분야의 최우수 학술대회인 ‘ACL (Conference on Machine Learning and Systems)’‘Findings’ 트랙에서 발표됐으며, 공동 연구팀은 데이터셋, 코드, 툴 등을 오픈소스로 공개하였다.
 
그동안 주요 국제 학회에서 발표되고 논의된 대화형 챗봇 연구는 주로 영어, 중국어와 같이 널리 사용되는 언어에 국한되어 왔다. 새로운 언어를 위한 데이터셋을 만드는 데 적지 않은 비용이 들어가기 때문이다. 연구팀이 제안한 기법을 사용하면, 사람이 번역한 데이터셋 일부를 기반으로 전체 데이터셋에 대한 자동 번역 품질을 향상시켜 널리 사용되지 않은 언어에 대해서도 데이터셋 제작 비용을 현저히 줄일 수 있다.
 
연구팀은 신경망 기반 기술과 사전 기반 기술을 독창적으로 통합하는 자연어 처리 기술인 통합적 개체 정렬(Hybrid Entity Alignment) 기술을 고안했다. 연구팀은 이를 활용하여 전체 데이터셋을 번역하는 대신 작은 크기의 일부 데이터셋만 번역한 후 기술을 적용하는 번역 및 후편집 방법론을 제안하였다.
 
이 기법을 적용하면 데이터셋 전체를 번역하지 않아도 챗봇 모델의 다국어 성능을 유의미하게 높일 수 있다. 예를 들면, 한국어로 훈련된 챗봇 모델을 서비스하는 기업에서 글로벌 고객을 응대하기 위해 영어와 프랑스어에 대해서도 같은 기능의 챗봇 모델을 서비스해야 할 때, 기존에는 한국어 모델을 훈련할 때 사용했던 데이터셋 전체를 번역해야 했지만 번역 및 후편집 방법론을 적용하면 데이터셋의 일부만 번역해도 비슷한 성능을 가지는 다국어 챗봇 모델을 서비스할 수 있게 된다.
 
공동 연구팀은 독립체 정렬 기술의 성능을 측정하기 위하여 중국어로 된 ‘RiSAWOZ’ 데이터셋을 영어, 프랑스어, 힌디어, 한국어, 영어-힌디 변형(Code-mixed)5가지 타깃 언어에 대하여 실험을 수행하였다. 또한 데이터셋의 품질을 더욱 높일 수 있는 다양한 자동화, 반자동화 검사 툴들을 개발하였다.
 
특히 한국어는 다른 언어와 단어 조합 방법이 달라 통합적 개체 정렬 기술을 적용하기에 어려움이 있었다. 서지원 교수 연구팀의 김성균 박사과정 연구원은 한국어 데이터셋의 독립체 정렬 기술 성능을 높이기 위하여 어절 단위가 아닌 단어 단위로 개체 정렬을 적용할 수 있도록 문자 단위의 개체 정렬 기법을 제안하고, 이를 위한 도구 개발에 참여하였다. 이를 통해 조사, 보조 용언같이 한 어절에서 나타나는 변화를 포함한 여러 한국어의 특성들을 고려할 수 있게 됐다.
 
김성균 박사과정 연구원은 이번 연구결과에 대해 챗봇 모델이 지원하는 언어를 추가할 때 비용적인 장벽이 크게 낮아질 수 있다라며 특히 널리 사용되지 않아 챗봇 언어 모델을 훈련하기 위한 데이터셋을 만들기 어려운 언어들에 대해서도 챗봇 서비스 지원을 기대하고 있으며, 이를 통해서 비주류 언어 사용자들의 서비스 접근성이 증가하는 효과를 기대하고 있다라고 밝혔다.
 
공동 연구팀은 본 연구 결과인 대화형 챗봇 에이전트를 위한 엔드 투 엔드(End-to-End) 데이터셋과 검사 툴들을 포함한 ‘X-RiSAWOZ’ 벤치마크를 오픈소스로 공개하였다[1].
 
[1] github 공개: https://github.com/stanford-oval/dialogues/tree/camera-ready-acl2023

서지원 교수
김성균 박사과정 연구원
 중국어-영어 환경에서 번역(1) 및 후편집(2,3,4) 방법론이 적용된 X-RiSAWOZ의 프로세스 모식도. 노란 부분은 사람이 직접 해 주어야 하는 영역이고, 붉은 부분은 소스 언어의 데이터셋 영역, 보라색 부분은 자동으로 생성되는 타깃 언어 영역이다.

댓글달기

게시글 / 이전글 - 다음글
이전글 | 이전글이 없습니다.
다음글 | 다음글이 없습니다.