[연구] [자연어처리연구실] 김보성 연구원 AAAI 2021 국제 학술대회 논문 게재
- 소프트웨어융합대학
- 조회수1242
- 2020-12-07
[자연어처리연구실] 김보성 연구원 AAAI 2021 국제 학술대회 논문 게재
지도교수: 고영중 교수
자연어처리 연구실 김보성 연구원의 “Commonsense Knowledge Augmentation for Low-Resource Languages via Adversarial Learning” 논문이 인공지능 분야의 top-tier 국제 학술대회인 AAAI Conference on Artificial Intelligence, 2021에 최종 논문 게재가 승인되었고 내년 2월에 발표될 예정입니다.
본 연구에서는 저자원(low-resource) 언어의 지식 데이터를 확장하는 적대적 학습(adversarial learning) 방법을 제안합니다. 기존 데이터 확장에서 사용되는 번역 방법은 모호성 문제가 발생하며 모델 학습 시 태깅 데이터가 필요하다는 한계점이 있습니다. 본 논문에서는 적대적 학습을 통해 모델이 언어 독립적인 특성을 학습하게 하고, 풍부한 영어 데이터로부터 저자원 언어의 지식을 자동으로 확장할 수 있는 방법을 제시합니다. 제안된 모델은 한국어 지식 데이터에서 93.7%의 정확도를 달성하였으며, 626,681개의 한국어 지식을 생성하였습니다. 또한 16개의 언어를 이용한 테스트에서 모두 효과적인 성능 향상을 이뤘습니다.
[논문] “Commonsense Knowledge Augmentation for Low-Resource Languages via Adversarial Learning”, The 35th AAAI Conference on Artificial Intelligence, 2021.
Abstract:
Commonsense reasoning is one of the ultimate goals of artificial intelligence research because it simulates the human thinking process. However, most commonsense reasoning studies have focused on English because available commonsense knowledge for low-resource languages is scarce due to high construction costs. Translation is one of the typical methods for augmenting data for low-resource languages; however, translation entails ambiguity problems, where one word can be translated into multiple words due to polysemes and homonyms. Previous studies have suggested methods to measure the validity of translated multiple triples by using additional metadata and manually labeled data. However, such hand-crafted datasets are not available for many low-resource languages. In this paper, we propose a knowledge augmentation method using adversarial networks that does not require any labeled data. Our adversarial networks can transfer knowledge learned from a resource-rich language to low-resource languages and thus measure the validity score of translated triples even without labeled data. We designed experiments to demonstrate that high-scoring triples obtained by the proposed model can be considered augmented knowledge. The experimental results show that our proposed method for a low-resource language, Korean, achieved 93.7% precision@1 on a manually labeled benchmark. Furthermore, to verify our model for other low-resource languages, we introduced new test sets for knowledge validation in 16 different languages. Our adversarial model obtains strong results for all language test sets. We will release the augmented Korean knowledge and test sets for 16 languages.
고영중 교수: yjko@skku.edu, 자연어처리연구실: nlp.skku.edu; nlplab.skku.edu