[연구] 우사이먼 교수 연구실, AAAI 2024 논문 2편 게재 승인
- 소프트웨어융합대학
- 조회수2378
- 2024-01-30
DASH 연구실 (지도교수: 우사이먼성일)의 논문 2편이 인공지능 분야의 최우수 학술대회인 AAAI Conference on Artificial Intelligence 2024 (AAAI24)에 게재 승인되어 2월에 발표될 예정입니다. 최선을 다해 우수한 연구를 진행한 참여 연구원 학생분들께 감사드립니다.
논문 #1: Diffusion 모델 제어 관련 연구
(공동 1저자: 인공지능학과 석박통합과정 홍승후, 인공지능학과 석박통합과정 이주헌)
논문 #2: 삭제학습(Machine Unlearning) 관련 연구
(1저자 데이터사이언스학과 석사과정 김현준, 2저자 인공지능학과 석사과정 이상용)
[논문 1정보]
Seunghoo Hong†, Juhun Lee†, and Simon S. Woo*, “All but One: Surgical Concept Erasing with Model Preservation in Text-to-Image Diffusion Models”, Proceedings of the 38th annual AAAI Conference on Artificial Intelligence (AAAI), 2024.
“All but One: Surgical Concept Erasing with Model Preservation in Text-to-Image Diffusion Models”논문에서는 Stable Diffusion과 같은 text to image모델의 특정 개념을 지우는 새로운 알고리즘을 제안합니다. 널리 사용되는 Stable Diffusion과 같이 대규모 데이터 세트를 사용하여 학습된 생성모델의 경우 학습에 부적절하거나 저작권이 있는 이미지가 포함될 수 있고 이로 인해 생성모델은 부적절한 이미지를 생성할 수 있습니다. 사실상 대규모 모델의 학습은 불가능하기 때문에 이를 해결하기 위한 방법으로 “개념삭제”라는 접근이 제안되었습니다. 하지만 지금까지의 개념삭제 알고리즘은 삭제 대상 뿐만 아니라 전혀 관계가 없는 개념까지 영향을 끼쳐 출력물의 의미와 구조를 모두 망가지게 됩니다. 본 논문에서는 이러한 문제점을 제시하고 이를 해결한 새로운 개념삭제 알고리즘을 제안합니다. 제안하는 알고리즘은 이미지 생성에서 사용되는 classifier guidance term에 주목하여 conditional score를 수정하면서 unconditional score는 보존하도록 합니다. 또한 삭제 대상에 대안 개념을 제시하는 방식을 통해 “Surgical Concept Erasing”을 가능하게 하였습니다. 논문의 실험을 통해 제안하는 알고리즘이 삭제 대상을 제대로 삭제할 뿐만 아니라 출력물의 공간적 특징까지 보존하는 것을 보여줍니다.
Abstract:
Text-to-Image models such as Stable Diffusion have shown impressive image generation synthesis, thanks to the utilization of large-scale datasets. However, these datasets may contain sexually explicit, copyrighted, or undesirable content, which allows the model to directly generate them. Given that retraining these large models on individual concept deletion requests is infeasible, fine-tuning algorithms have been developed to tackle concept erasing in diffusion models. While these algorithms yield good concept erasure, they all present one of the following issues: 1) the corrupted feature space yields synthesis of disintegrated objects, 2) the initially synthesized content undergoes a divergence in both spatial structure and semantics in the generated images, and 3) sub-optimal training updates heighten the model's susceptibility to utility harm. These issues severely degrade the original utility of generative models. In this work, we present a new approach that solves all of these challenges. We take inspiration from the concept of classifier guidance and propose a surgical update on the classifier guidance term while constraining the drift of the unconditional score term. Furthermore, our algorithm empowers the user to select an alternative to the erasing concept, allowing for more controllability. Our experimental results show that our algorithm not only erases the target concept effectively but also preserves the model’s generation capability.
※ 논문명: All but One: Surgical Concept Erasing with Model Preservation in Text-to-Image Diffusion Models
※ 논문링크: https://doi.org/10.48550/arXiv.2312.12807
※ 저자명: Simon S. Woo(교신저자), Seunghoo Hong, Juhun Lee (공동 제1저자)
[논문 2정보]
Hyunjune Kim, Sangyong Lee, and Simon S. Woo*, “Layer Attack Unlearning: Fast and Accurate Machine Unlearning via Layer Level Attack and Knowledge Distillation”, Proceedings of the 38th annual AAAI Conference on Artificial Intelligence (AAAI), 2024.
논문링크: https://arxiv.org/pdf/2312.16823.pdf
이 연구에서는 기존 Machine Unlearning (머신 언러닝) 알고리즘에 비해 상당히 정확하고 빠른 새로운 접근 방법인 'Layer Attack Unlearning'을 제안합니다. 우리의 언러닝 알고리즘은 전체 모델이 아닌 Layer level에서 수행합니다. 그렇게 함으로써 알고리즘의 시간적 성능 향상에 기여하였습니다. 또한 우리의 접근 방식에 도입한 Partial-PGD 알고리즘은 기존 PGD 알고리즘 대비 계산량을 줄여 줍니다. 이 적대적 공격 기법은 언러닝 과정에서 삭제될 데이터가 어디에 할당될지 효율적으로 찾아냅니다. 마지막으로, 우리는 지식 증류를 사용하여 Teacher로부터 결정 경계 정보를 얻어 retain data 정보를 유지하면서 언러닝 작업을 수행하여 정확도 성능을 보존 및 향상시킵니다. 우리는 기존의 SOTA 머신 언러닝 모델과 함께 광범위한 실험을 진행하고, 정확성과 end-to-end 언러닝 성능에 대한 우리의 접근 방식의 효과를 입증하였습니다.
Abstract:
Recently, serious concerns have been raised about the privacy issues related to training datasets in machine learning algorithms when including personal data. Various regulations in different countries, including the GDPR, grant individuals to have personal data erased, known as ‘the right to be forgotten’ or ‘the right to erasure’. However, there has been less research on effectively and practically deleting the requested personal data from the training set while not jeopardizing the overall machine learning performance. In this work, we propose a fast and novel machine unlearning paradigm at the layer level called layer attack unlearning, which is highly accurate and fast compared to existing machine unlearning algorithms. We introduce the Partial-PGD algorithm to locate the samples to forget efficiently. In addition, we only use the last layer of the model inspired by the Forward-Forward algorithm for unlearning process. Lastly, we use Knowledge Distillation (KD) to reliably learn the decision boundaries from the teacher using soft label information to improve accuracy performance. We conducted extensive experiments with SOTA machine unlearning models and demonstrated the effectiveness of our approach for accuracy and end-to-end unlearning performance.
문의사항이나 질문은 DASH Lab(https://dash.skku.edu)의 우사이먼교수님 (swoo@g.skku.edu)에게 연락부탁드립니다.