-
- [연구] 데이터 지능 및 학습 연구실 (지도교수: 이종욱), SIGIR, CIKM, EMNLP 2023 논문 7편 게재 NEW
- 데이터 지능 및 학습(Data Intelligence and Learning, DIAL) 연구실은 세계 최고 권위 정보검색 학회인 SIGIR 2023에 총 3편의 논문이 최종 게재 승인되었으며, 지난 7월 23일 스페인 마드리드에서 논문을 발표하였습니다. 지난 10월 21일에는 세계 최고 권위 데이터마이닝 학회인 CIKM 2023에 총 2편의 논문이 최종 게재 승인되어 영국 버밍엄에서 논문을 발표하였습니다. 또한, 세계 최고 권위 자연어처리 학회인 EMNLP 2023에 총 2편의 논문이 최종 게재 승인되었으며, 오는 12월에 싱가포르에서 논문을 발표할 예정입니다. [논문 목록] 1. It’s Enough: Relaxing Diagonal Constraints in Linear Autoencoders for Recommendation (SIGIR'23) 2. uCTRL: Unbiased Contrastive Representation Learning via Alignment and Uniformity for Collaborative Filtering (SIGIR'23) 3. ConQueR: Contextualized Query Reduction using Search Logs (SIGIR'23) 4. Forgetting-aware Linear Bias for Attentive Knowledge Tracing (CIKM'23) 5. Toward a Better Understanding of Loss Functions for Collaborative Filtering (CIKM'23) 6. GLEN: Generative Retrieval via Lexical Index Learning (EMNLP'23) 7. It Ain't Over: A Multi-aspect Diverse Math Word Problem Dataset (EMNLP'23) 연구 1: Jaewan Moon, Hye-young Kim, and Jongwuk Lee, “It’s Enough: Relaxing Diagonal Constraints in Linear Autoencoders for Recommendation”, 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2023 본 연구는 선형 오토인코더 (linear autoencoder) 기반 추천 시스템에서의 대각 제약조건 (diagonal constraint)에 대한 이론적 분석을 수행하고, 대각 제약조건을 완화한 relaxed linear autoencoders (RLAE)를 제안합니다. 선형 오토인코더 모델은 L2 정규화 (L2 regularization) 및 대각 성분 제거 제약조건 (zero-diagonal constraint)을 사용한 볼록 최적화 (convex optimization)를 통해 항목 간 가중치 행렬을 학습합니다. 본 논문은 선형 오토인코더 모델에서 두 가지 제약 조건의 특성을 이론적으로 이해하는 것을 목표로 합니다. 특이값 분해(singular value decomposition, SVD)와 주성분 분석(principal component analysis, PCA)을 활용한 가중치 행렬에 대한 분석을 통해 L2 정규화가 높은 순위의 주성분의 효과를 촉진한다는 사실을 밝힙니다. 반면, 대각선 성분 제거 제약조건은 순위가 낮은 주성분의 영향을 감소시켜 인기 없는 항목의 성능 저하로 이어질 수 있음을 보였습니다. 이러한 분석 결과로부터 영감을 얻어 대각선 부등식 제약 조건을 사용하는 간단하면서도 효과적인 선형 오토인코더 모델인 Relaxed Linear AutoEncoder (RLAE)와 Relaxed Denoising Linear AutoEncoder (RDLAE)를 제안합니다. 또한 대각 제약조건의 정도를 조정하는 제안 방법은 기존 선형 모델을 일반화한 형태임에 대한 증명을 제공합니다. 실험 결과는 6개의 벤치마크 데이터 세트에서 우리의 모델이 최첨단 선형 및 비선형 모델과 비슷하거나 더 우수하다는 것을 보여줍니다. 이는 대각 제약조건에 대한 이론적 통찰력을 뒷받침하며, 특히 인기도가 낮은 항목과 인기도 편향을 제거한 평가 (unbiased evaluation)에서 상당한 성능 향상이 발생됨을 확인하였습니다. 본 논문에 관한 자세한 내용을 알고 싶으시다면, 다음 주소를 참고해주세요. URL: https://dial.skku.edu/blog/sigir2023_itsenough 연구 2: Jae-woong Lee, Seongmin Park, Mincheol Yoon, and Jongwuk Lee, “uCTRL: Unbiased Contrastive Representation Learning via Alignment and Uniformity for Collaborative Filtering”, 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR, short paper), 2023 본 연구는 추천 시스템에서 암묵적 피드백(e.g., 클릭 등)을 이용하여 학습할 때, 암묵적 피드백이 주로 인기있는 사용자와 항목에 편향되어 있어서 이로 인해 사용자와 항목의 표현(representation)이 실제 사용자와 항목의 선호도와 다르게 학습되는 문제를 해결한 논문입니다. 이 연구에서 우리는 기존의 추천에서 편향을 제거하는 연구들이 (i) 더 나은 표현 학습을 위해 널리 사용되는 대조 손실 함수(contrastive loss)를 고려하지 않는다는 것과 (ii) 편향 제거 시, 사용자와 항목을 모두 고려하지 않는다는 것을 지적하고 이를 보완하였습니다. 이 연구에서 우리는 Unbiased ConTrastive Representation Learning (uCTRL)을 제안합니다. 먼저, 기존에 추천 시스템에서 대조 손실 함수를 이용한 모델인 DirectAU 에서 영감을 받아, 대조적인 표현 학습을 정렬(alignment)과 균일성(uniformity) 두 가지 손실 함수로 나타냅니다. 정렬 함수는 사용자-항목 상호작용에 대해 사용자와 항목의 표현을 비슷하게 합니다. 균일성 함수는 각 사용자 및 항목 분포를 균등하게 나타냅니다. 우리는 정렬 함수가 사용자와 항목의 인기도에 편향되어 있다는 것을 확인하였으며, 편향을 추정한 뒤에 이를 이용하여 편향을 제거하는 방법인 IPW(inverse propensity weighting)를 이용하여 편향을 제거합니다. 추가적으로 우리는 IPW에서 사용되는 사용자와 항목을 모두 고려하여 편향을 추정하는 새로운 방법을 개발하여 하였습니다. 우리의 실험 결과는 제안된 uCTRL이 네 개의 벤치마크 데이터셋(MovieLens 1M, Gowalla, Yelp 및 Yahoo! R3)에서 최신 편향제거 모델보다 우수한 성능을 보인다는 것을 보여주었습니다. 본 논문에 관한 자세한 내용을 알고 싶으시다면, 다음 주소를 참고해주세요. URL: https://dial.skku.edu/blog/2023_uctrl 연구 3: Hye-young Kim*, Minjin Choi*, Sunkyung Lee, Eunseong Choi, Young-In Song, and Jongwuk Lee, “ConQueR: Contextualized Query Reduction using Search Logs”, 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR, short paper), 2023 본 연구는 사전학습된 언어 모델(Pre-trained language model)을 활용한 질의 축약 모델을 제안합니다. 질의 축약이란 사용자가 너무 긴 질의(검색어)를 입력하여 사용자의 의도에 맞는 적절한 결과를 얻지 못하였을 때, 질의에서 불필요한 단어를 제거하여 원하는 검색 결과를 찾는 방법을 의미합니다. 제안 모델 ConQueR는 (i)핵심 용어 추출과 (ii) 하위 질의 선택의 두 가지 관점에서 이를 해결합니다. 핵심 용어 추출 방법은 단어 수준에서 기존 질의의 핵심 용어를 추출하고 하위 질의 선택 방법은 주어진 하위 질의가 기존 질의의 올바른 축약인지 문장 수준에서 결정합니다. 두가지 관점은 서로 다른 레벨에서 작동하여 상호보완적인 관계를 가졌기 때문에 제안 모델 ConQueR는 최종적으로 이를 결합하여 올바른 축약을 얻습니다. 더불어 검색 로그에서 빈번하게 발생할 수 있는 잘못된 샘플을 처리하기 위해 truncated loss 학습 방식을 도입하여 학습이 원활히 이루어지도록 설계하였습니다. 실제 검색 엔진에서 수집한 검색 로그 데이터에 대한 성능 실험과 만족도 조사를 통해, 제안 모델이 효과적으로 질의 축약을 수행하였음을 입증하였습니다. 본 논문에 관한 자세한 내용을 알고 싶으시다면, 다음 주소를 참고해주세요. URL: https://dial.skku.edu/blog/2023_conquer 연구 4: Yoonjin Im*, Eunseong Choi*, Heejin Kook, and Jongwuk Lee, “Forgetting-aware Linear Bias for Attentive Knowledge Tracing”, The 32nd ACM International Conference on Information and Knowledge Management (CIKM, short paper), 2023 지식 추적은 학습자의 순차적인 과거 문제 풀이 기록을 기반으로 새로운 목표 문제의 정오답을 예측하는 과업을 통해 숙련도를 모델링합니다. 학습자의 숙련도를 정확히 예측하기 위해서는 문제 간의 상관관계와 학습자의 특성(예: 망각 행동)을 학습하는 것이 중요합니다. 따라서 일부 집중 메카니즘(attention mechanism) 기반의 지식 추적 모델들은 절대적 위치 정보(absolute position embeddings) 대신 상대적 시간 간격 편향(relative time interval bias)을 도입하여 학습자의 망각 행동(forgetting behavior)을 모델링했습니다. 이는 현재 시점에서 오래된 문제 풀이 기록일수록 모델의 집중도를 낮춤으로써 망각 행동을 구현합니다. 하지만 기존 방법론들은 문제 풀이 기록이 길어질수록 망각 행동 모델링의 효과가 줄어드는 문제가 나타납니다. 본 연구에서는 일반화된 수식 분석을 통해 기존의 상대적 시간 간격 편향 계산에 문제 간의 상관관계가 불필요하게 개입된다고 판단하고, 이를 해결하기 위해 서로를 분리할 수 있는 선형 편향 기반의 FoLiBi (Forgetting aware Linear Bias for Attentive Knowledge Tracing)를 제안합니다. 제안하는 방법론은 기존의 집중 메카니즘 기반의 지식 추적 모델에 쉽게 적용될 수 있으며, 간단한 방법임에도 불구하고 4개의 벤치마크 데이터 세트에서 최신 지식추적 모델에 비해 최대 2.58%까지 일관되게 AUC를 개선했습니다. 본 논문에 관한 자세한 내용을 알고 싶으시다면, 다음 주소를 참고해주세요. URL: https://dial.skku.edu/blog/2023_folibi 연구 5: Seongmin Park, Mincheol Yoon, Jae-woong Lee, Hogun Park, and Jongwuk Lee, “Toward a Better Understanding of Loss Functions for Collaborative Filtering”, The 32nd ACM International Conference on Information and Knowledge Management (CIKM), 2023 본 연구는 추천 시스템의 한 축인 협업 필터링(Collaborative filtering)에서 사용하는 다양한 손실 함수(Loss function) 간의 수식적인 관계를 분석하고, 이 관계를 기반으로 새로운 손실함수를 제안합니다. 협업 필터링은 최신 추천 시스템에서 핵심적인 기술이며, 협업 필터링 모델의 학습 과정은 일반적으로 상호작용 인코더, 손실 함수, 네거티브 샘플링의 세 가지 구성 요소로 이루어집니다. 기존의 많은 연구에서 정교한 상호작용 인코더를 설계하기 위해 다양한 협업 필터링 모델을 제안했지만, 최근 연구에서는 단순히 손실 함수를 교체하는 것만으로도 큰 성능 향상을 달성할 수 있음을 보여주고 있습니다. 이 논문에서는 기존 손실 함수 간의 관계를 분석하여, 기존의 손실 함수들을 정렬(Alignment) 및 균일(Unifomrity)으로 해석할 수 있음을 밝혀냈습니다. (i) 정렬은 사용자와 항목 표현을 일치시키고, (ii) 균일은 사용자와 항목 분포를 분산시키는 역할을 합니다. 이 분석에서 영감을 얻어 데이터셋의 고유한 패턴을 고려하여 정렬과 균일성의 설계를 개선하는 새로운 손실 함수(Margin-aware Alignment and Weighted Uniformity, MAWU)를 제안합니다. (i) Margin-aware Alignment(MA)는 사용자/아이템별 인기도 편향을 완화하고, (ii) Weighted Uniformity(WU)는 데이터셋의 고유한 특성을 반영하기 위해 사용자 및 항목 균일성을 조정합니다. 실험 결과, MAWU를 탑재한 MF와 LightGCN은 세 가지 벤치마크 데이터셋에서 다양한 손실 함수를 사용하는 최신 협업 필터링 모델과 비슷하거나 더 우수한 것으로 나타났습니다. 본 논문에 관한 자세한 내용을 알고 싶으시다면, 다음 주소를 참고해주세요. URL: https://dial.skku.edu/blog/2023_mawu 연구 6: Sunkyung Lee*, Minjin Choi*, Jongwuk Lee (* : equal contribution), “GLEN: Generative Retrieval via Lexical Index Learning”, The 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023 (To appear) 본 연구는 어휘 색인 학습을 통한 새로운 생성 검색 모델 GLEN (Generative retrieval model via LExical INdex Learning)을 제안합니다. 생성 검색(Generative retrieval)은 문서 검색의 새로운 패러다임으로, 질의에 대한 관련 문서의 식별자를 직접 생성하는 것을 목표로 합니다. 그러나, 기존 생성 검색 연구들은 두 가지 주요한 한계를 가집니다. 첫 번째는 문서의 식별자 생성이 기존의 자연어 생성과 의미적으로 많이 다르지만 이를 고려하지 않는다는 점입니다. 두 번째는 학습 시 식별자 생성만을 집중하지만, 추론 시 비슷한 문서 간의 순위를 매겨야 함으로 인해 발생하는 학습-추론 불일치입니다. 이를 극복하기 위해, 본 연구는 어휘 색인(lexical index)을 동적으로 학습하는 새로운 생성 검색 방법론을 제안합니다. 제안 방법론은 2단계 인덱스 학습 전략(two-phase lexical index learning)을 통해 (i) 키워드 기반의 고정된 문서 식별자를 생성하는 추가 사전 학습 단계를 수행하며, (ii) 동적 문서 식별자를 질의 및 문서 간의 관련성을 통해 학습하도록 합니다. 실험 결과, 제안 모델 GLEN이 NQ320k, MS MARCO, BEIR 등 다양한 벤치마크 데이터셋에서 기존의 생성 검색 모델 또는 전통적인 검색 모델 대비 최상 또는 경쟁력 있는 성능을 달성한다는 것을 증명하였습니다. 코드는 https://github.com/skleee/GLEN 에서 확인할 수 있습니다. 본 논문에 관한 자세한 내용을 알고 싶으시다면, 다음 주소를 참고해주세요. URL: https://dial.skku.edu/blog/2023_glen 연구 7: Jiwoo Kim, Youngbin Kim, Ilwoong Baek, JinYeong Bak, Jongwuk Lee, “It Ain't Over: A Multi-aspect Diverse Math Word Problem Dataset”, The 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023 (To appear) 본 연구는 LLM(Large Language Model)의 수학적 추론 능력을 분석하고, 이를 개선하기 위한 새로운 10K 데이터셋 DMath (Diverse Math Word Problems)를 제안합니다. 수학 문장형 문제 (MWP, Math Word Problem) 과제는 자연어 모델에게 자연어 문장에 대한 깊은 이해와 논리적 추론을 요구하는 복잡하고 흥미로운 과제이자 자연어 모델의 추론 능력을 평가하기 위해 주로 사용되어 온 과제입니다. 최근 들어 거대 언어 모델(LLM)이 등장하면서 기존 수학 문장형 문제 벤치마크에서 높은 성능을 거두었으며, 이를 통해 LLM이 좋은 수학적 추론 능력을 가지고 있다고 알려져 있습니다. 그러나 이는 제한적인 벤치마크로 인한 결과로 본 논문에서는 기존 벤치마크의 낮은 다양성을 지적하며 이를 높여야 함을 보입니다. 본 논문은 수학 문장형 문제 데이터셋이 가져야 하는 다양성을 총 네 가지로 정의합니다. 이는 추론 유형(problem types), 어휘 사용 패턴(lexical usage patterns), 언어(languages), 그리고 중간 풀이 과정(intermediate solution forms)입니다. 추론 유형을 정의하기 위해 본 연구는 미국과 한국의 수학 교육 과정을 참고하였고, 산술 연산(arithmetic calculation), 비교(comparison), 상관관계(correspondence), 도형(geometry), 확률(possibility)로 정의하였습니다. 이전 연구들은 산술 연산에 집중하였기 때문에 다른 유형의 수학적 추론 능력에 대해 LLM이 어떤 결과를 내보이는지 알려진 바가 적었습니다. 본 연구의 실험 결과 LLM의 추론 능력은 추론 유형에 따라 많은 차이를 보입니다. 어휘 사용 패턴, 언어, 중간 풀이 과정에 대해서도 높은 다양성을 추구하였고, 이러한 특징으로 인해 DMath는 이전 연구들보다 더 도전적인 데이터셋이라고 볼 수 있습니다. 또한 데이터를 구성하고 구축하는 과정에서 43명의 사람들이 참여했으며, 정교한 검증을 통해 높은 품질을 추구하였습니다. 높은 다양성으로 인해 DMath는 LLM의 다양한 추론 능력을 검사하고 평가하는데 도움이 될 수 있습니다. 관련 데이터는 https://github.com/JiwooKimAR/dmath 에서 확인하실 수 있습니다. 본 논문에 관한 자세한 내용을 알고 싶으시다면, 다음 주소를 참고해주세요. URL: https://dial.skku.edu/blog/2023_dmath
-
- 작성일 2023-11-26
- 조회수 327
-
- [연구] 김형식 교수 연구실(보안공학연구실, SecLab), IEEE Symposium on Security and Privacy (S&P) 2024 논문 게재 승인
- 보안공학 연구실 (지도교수: 김형식, https://seclab.skku.edu)의 오상학(박사과정), 이기호(석사과정), 박선혜(석사과정) 학생과 김형식 교수가 진행한 "Poisoned ChatGPT Finds Work for Idle Hands: Exploring Developers' Coding Practices with Insecure Suggestions from Poisoned AI Models"논문이 컴퓨터 보안 분야에서 최우수 학술대회(IF=4)인 IEEE Symposium on Security and Privacy (S&P) 2024에 게재 승인되었습니다. 본 연구는 미국 테네시 대학교의 김두원 교수님과 공동 연구로 진행되었습니다. 본 논문은 ChatGPT 혹은 GitHub Copilot과 같은 AI 코딩 어시스턴트 툴에서 발생할 수 있는 공격인 포이즈닝 공격에 대한 개발자들의 인식을 분석하고, 더 나아가 실제 개발자들이 포이즈닝 공격을 접했을 때 이를 어떻게 대처하는지에 대한 개발자들의 코딩 패턴을 분석한 연구입니다. 이를 위해, 실제 소프트웨어 개발자들을 모집하여 온라인 사용자 스터디와 In-lab 스터디를 진행하였으며, In-lab 스터디에서는 일반 개발자와 보안 지식이 있는 개발자를 각각 모집하여 실험을 진행하였습니다. 주요 결과로, IntelliCode와 같은 형태의 AI 코딩 어시스턴트 툴을 사용하거나 툴이 없는 환경일 때보다, ChatGPT와 같은 형태의 툴을 사용하는 환경에서 포이즈닝 공격을 통해 취약한 코드가 개발자에서 제안되었을 때, 개발자들이 좀더 취약한 코드를 생성하는 경향을 보이는 결과를 보였습니다. Abstract. AI-powered coding assistant tools (e.g., ChatGPT, Copilot, and IntelliCode) have revolutionized the software engineering ecosystem. However, prior work has demonstrated that these tools are vulnerable to poisoning attacks. In a poisoning attack, an attacker intentionally injects maliciously-crafted insecure code snippets into training datasets to manipulate these tools. The poisoned tools can suggest insecure code to developers, resulting in vulnerabilities in their products that attackers can exploit. However, it is still little understood whether such poisoning attacks against the tools would be practical in real-world settings and how developers address the poisoning attacks during software development. To better understand the feasibility of poisoning attacks against AI-powered coding assistant tools, we designed two user studies: an online survey and an in-lab study. The online survey was conducted with 241 software developers. The survey results showed developers widely adopted these tools to enhance coding speed, eliminate repetition, and gain boilerplate code. However, the survey also found developers may misplace trust in these tools because they overlooked the risk of poisoning attacks. The in-lab study was conducted with 30 professional developers. The developers were asked to complete three programming tasks with a representative type of AI-powered coding assistant tool like ChatGPT or IntelliCode running on Visual Studio Code. The in-lab study results showed that developers using a poisoned ChatGPT-like tool were more prone to including insecure code than those using an IntelliCode-like tool or no tool. This demonstrates the strong influence of these tools on the security of generated code. Our study results highlight the need for education and improved coding practices to address new security issues introduced by AI-powered coding assistant tools.
-
- 작성일 2023-10-31
- 조회수 1010
-
- [연구] 우사이먼성일 교수 DASH 연구실, CIKM 2023 국제 학술대회 논문 3편 게재 승인 및 이상탐지 관련 워크숍 개최
- DASH 연구실 박은주 소프트웨어학과 박사과정, Binh M. Le 소프트웨어학과 박사과정, 소프트웨어학과 융합보안대학원 조범상 석사과정, 이상용 인공지능대학원 석사과정, 백승연 인공지능대학원 석사과정, 김지원 인공지능대학원 석사과정의 논문 3편이 인공지능 및 정보검색 분야의 top-tier 국제학술대회인 CIKM (Conference on Information and Knowledge Management) 2023에 최종 논문 게재가 승인되어 10월에 발표될 예정입니다. 1.호주 CSIRO Data61과 Deepfake 관련 연구 2.신분증 진위 분류를 위한 데이터셋 관련 연구 3.Machine Unlearning 연구 또한, DASH 연구실 우사이먼성일 교수님이 주축이 되어 제 1회 위성 및 무인비행체의 이상탐지에 관한 워크샵이 CIKM 2023에서 개최됩니다. 1. Beomsang Cho, Binh M. Le, Jiwon Kim, Simon S. Woo , Shahroz Tariq, Alsharif Abuadbba, and Kristen Moore , “Toward Understanding of Deepfake Videos in the Wild”, Proceedings of the 32nd ACM International Conference on Information & Knowledge Management. 2023. 본 연구는 최근 증가하는 Deepfake 문제를 다루며, 기존 Dataset이 최신 기술을 충분히 반영하지 못하는 한계를 극복하기 위한 목적으로 시작되었습니다. 우리는 RWDF-23이라는 최신 Deepfake Dataset을 제안합니다. RWDF-23은 Reddit, Youtube, TikTok, Bilibili등에서 수집한 2,000개의 Deepfake 비디오로 구성되며, 4가지의 다른 언어를 대상으로 수집하였습니다. 이를 통하여 이전 Dataset의 범위를 확장하고, 현재 온라인 플랫폼에서 얼마나 많은 최신 Deepfake 기술들이 사용되고 있는지 분석하며 Deepfake를 제작하는 사람들의 분석뿐만 아니라 시청자들의 의견과 상호 작용 데이터를 수집하여 Deepfake를 시청하는 사람들의 상호작용 방식을 조사합니다. 이러한 풍부한 정보를 고려하여 계속해서 진화하는 Deepfake와 현실 온라인 플랫폼에 미치는 영향에 대한 포괄적인 이해를 제공합니다. Deepfakes have become a growing concern in recent years, prompting researchers to develop benchmark datasets and detection algorithms to tackle the issue. However, existing datasets suffer from significant drawbacks that hamper their effectiveness. Notably, these datasets fail to encompass the latest deepfake videos produced by state-of-the-art methods that are being shared across various platforms. This limitation impedes the ability to keep pace with the rapid evolution of generative AI techniques employed in real-world deepfake production. Our contributions in this IRB-approved study are to bridge this knowledge gap from current real-world deepfakes by providing in-depth analysis. We first present the largest and most diverse and recent deepfake dataset (RWDF-23) collected from the wild to date, consisting of 2,000 deepfake videos collected from 4 platforms targeting 4 different languages span created from 21 countries: Reddit, YouTube, TikTok, and Bilibili. By expanding the dataset’s scope beyond the previous research, we capture a broader range of real-world deepfake content, reflecting the ever-evolving landscape of online platforms. Also, we conduct a comprehensive analysis encompassing various aspects of deepfakes, including creators, manipulation strategies, purposes, and real-world content production methods. This allows us to gain valuable insights into the nuances and characteristics of deepfakes in different contexts. Lastly, in addition to the video content, we also collect viewer comments and interactions, enabling us to explore the engagements of internet users with deepfake content. By considering this rich contextual information, we aim to provide a holistic understanding of the evolving deepfake phenomenon and its impact on online platforms. 2. Eun-Ju Park, Seung-Yeon Back, Jeongho Kim, and Simon S. Woo, ”KID34K: A Dataset for Online Identity Card Fraud Detection”, Proceedings of the 32nd ACM International Conference on Information & Knowledge Management. 2023. 본 연구에서는 모바일 신분증 검증 시스템의 보안 강화를 위한 데이터셋을 제공합니다. 최근 모바일 플랫폼에서의 본인인증절차는 신분증을 기반으로 진행되고 있는데, 비대면 금융거래가 증가함에 따라 금융거래의 당사자가 신분증 명의자임을 증명하는 절차도 중요해지고 있습니다. 그러나, 현재의 시스템은 금융거래 이용자가 제출하는 사진이 본인의 신분증을 직접 찍는 것인지, 아니면 모니터나 종이에 출력한 다른 사람의 신분증 사진을 찍은 것인지 구별하지 않습니다. 본 연구는 이러한 신분증 검증 시스템의 안정성 강화라는 측면과, 또한 신분증의 개인정보 유출을 막기위한 측면 두 가지를 고려한 신분증 이미지 데이터셋을 제공합니다. Though digital financial systems have provided users with convenient and accessible services, such as supporting banking or payment services anywhere, it is necessary to have robust security to protect against identity misuse. Thus, online digital identity (ID) verification plays a crucial role in securing financial services on mobile platforms. One of the most widely employed techniques for digital ID verification is that mobile applications request users to take and upload a picture of their own ID cards. However, this approach has vulnerabilities where someone takes pictures of the ID cards belonging to another person displayed on a screen, or printed on paper to be verified as the ID card owner. To mitigate the risks associated with fraudulent ID card verification, we present a novel dataset for classifying cases where the ID card images that users upload to the verification system are genuine or digitally represented. Our dataset is replicas designed to resemble real ID cards, making it available while avoiding privacy issues. Through extensive experiments, we demonstrate that our dataset is effective for detecting digitally represented ID card images, not only in our replica dataset but also in the dataset consisting of real ID cards. 3. Sanyong Lee and Simon Woo, “UNDO: Effective and Accurate Unlearning Method for Deep Neural Networks”, Proceedings of the 32nd ACM International Conference on Information & Knowledge Management. 2023. 본 연구에서는 간단하면서 효과적인 machine unlearning 기법 UNDO를 제안합니다. 이 기법은 학습된 모델에서 한 클래스의 정보를 지우기 위해 두 스텝으로 이뤄져있습니다. 먼저 coarse-grained level로서, 잊으려고 하는 데이터에 다른 레이블을 부여하여 한 에폭(epoch)만 짧게 학습하므로서 결정 경계를 허뭅니다. 그런 다음 fine-grained level로서, 앞선 단계에서 차마 잊지 못한 데이터를 잊으면서, 남길 데이터에 대한 부작용을 개선하기 위한 학습을 합니다. 이때 남길 데이터는 학습에 사용하지 않은 소량만 사용하여 학습 속도를 빠르게 합니다. 다양한 실험을 통하여 본 논문에서 제안하는 UNDO는 기존 machine unlearning 기법들 보다 빠르고 효과적임을 보여줍니다. Machine learning has evolved through extensive data usage, including personal and private information. Regulations like GDPR highlight the "Right to be forgotten" for user and data privacy. Research in machine unlearning aims to remove specific data from pre-trained models. We introduce a novel two-step unlearning method, UNDO. First, we selectively disrupt the decision boundary of forgetting data at the coarse-grained level. However, this can also inadvertently affect the decision boundary of other remaining data, lowering the overall performance of the classification task. Hence, we subsequently repair and refine the decision boundary for each class at the fine-grained level by introducing a loss to maintain the overall performance while completely removing the class. Our approach is validated through experiments on two datasets, outperforming other methods in effectiveness and efficiency. 4. The 1st International Workshop on Anomaly and Novelty detection in Satellite and Drones systems (ANSD '23) 제 1회 위성 및 무인비행체의 이상탐지에 관한 워크샵이 CIKM 2023에서 개최됩니다. 본 워크샵은 우사이먼성일 성균관대 교수, Shahroz Tariq CSIRO’s Data61 소속, 신유진 가톨릭대 교수, 정대원 한국항공우주연구원 소속이 주축이 되어 무인비행체의 시계열 및 이미지 데이터에 대한 이상을 탐지하는 것과 관련된 내용을 주제로 합니다. The workshop on Anomaly and Novelty Detection in Drones and Satellite data at CIKM 2023 aims to bring together researchers, practitioners, and industry experts to discuss the latest advancements and challenges in detecting anomalies and novelties in drone and satellite data. With the increasing availability of such data, the workshop seeks to explore the potential of machine learning and data mining techniques to enable the timely and accurate detection of unexpected events or changes. The workshop will include presentations of research papers, keynote talks, panel discussions, and poster sessions, with a focus on promoting interdisciplinary collaboration and fostering new ideas for tackling real-world problems. 문의사항이나 질문은 DASH Lab(https://dash.skku.edu)의 우사이먼교수(swoo@g.skku.edu)에게 연락부탁드립니다.
-
- 작성일 2023-09-18
- 조회수 843
-
- [연구] 엄영익 교수 연구실(분산컴퓨팅연구실, DCLab.), SOSP 2023 논문 게재 승인
- 분산컴퓨팅연구실의 엄영익 교수님과 이태형 박사과정의 논문 “MEMTIS: Efficient Memory Tiering with Dynamic Page Classification and Page Size Determination”이 The 29th ACM Symposium on Operating Systems Principles (SOSP 2023) 학회에 게재 승인되었습니다. SOSP 학회는 컴퓨터 시스템 분야의 연구자, 개발자, 프로그래머를 위한 세계 최고의 학회입니다(BK21+ Computer Science 분야 최우수국제학술대회 인정IF=4). 본 논문은 최신 데이터센터 및 클라우드 컴퓨팅 환경에서 요구하는 대용량 메모리 시스템을 효과적으로 구축하는 방법을 제안합니다. 엄영익 교수님 연구팀은 DRAM과 차세대 하드웨어인 NVM(Non-Volatile Memory), CXL Memory 장치를 활용하는 새로운 계층형 메모리 시스템, MEMTIS를 제안하였습니다. MEMTIS는 자체적인 고성능 메모리 페이지 관리 기법을 바탕으로 최신의 계층형 메모리 시스템 대비 최대 169% 높은 성능을 보여줍니다. 본 연구는 엄영익교수님 연구팀과 미국의 Virginia Tech 소속 민창우 교수 연구팀 간의 국제 공동 연구로 수행 되었습니다. 또한, 이번 SOSP 논문 게재를 통해 분산컴퓨팅연구실은 국내 연구실로는 처음으로 SOSP에 두 편 이상의 논문(SOSP 2021 FragPicker, SOSP2023 MEMTIS)을 게재하게 되었습니다. 또한, 엄영익 교수님 연구팀은 올해에만 ASPLOS, MobiCom에 이어 세 번째 top-tier conference 논문을 게재하게 됩니다. [SOSP 2023] The 29th ACM Symposium on Operating Systems Principles, October 23-26, 2023 https://sosp2023.mpi-sws.org/ [논문 정보] MEMTIS: Efficient Memory Tiering with Dynamic Page Classification and Page Size Determination Taehyung Lee, Sumit Kumar Monga, Changwoo Min, Young Ik Eom 29th Symposium on Operating Systems Principles (SOSP 2023) Abstract: The evergrowing memory demand fueled by datacenter workloads is the driving force behind new memory technology innovations (e.g., NVM, CXL). Tiered memory system is a promising solution which harnesses such multiple memory types with varying capacity, latency, and cost characteristics in an effort to reduce server hardware costs while fulfilling memory demand. Prior works on memory tiering make suboptimal (often pathological) page placement decisions because they rely on various heuristics and static thresholds without considering overall memory access distribution. Also, deciding the appropriate page size for an application is difficult as huge pages are not always beneficial as a result of skewed accesses within them. We present Memtis, a tiered memory system that adopts an informed decision-making for page placement and page size determination. Memtis leverages access distribution of allocated pages to optimally approximate the hot data set to the fast tier capacity. Moreover, Memtis dynamically determines the page size that allows applications to use huge pages while avoiding their drawbacks by detecting inefficient use of fast tier memory and splintering them if necessary. Our evaluation shows that Memtis outperforms state-of-the-art tiering systems by up to 169.0% and their best by up to 33.6%. 분산컴퓨팅연구실: http://dclab.skku.ac.kr/xe/
-
- 작성일 2023-08-09
- 조회수 1174
-
- [연구] 시스템보안연구실(지도교수: 이호준), ACM CCS 2023에 논문 게재 승인
- 시스템보안 연구실 (지도교수 이호준, https://sslab.skku.edu)의 Dinh Kha(박사과정), 조규원(박사과정), 노태현(석사과정) 학생의 "Capacity: Cryptographically-Enforced In-process Capabilities for Modern ARM Architectures" 논문이 보안 분야 4대 학회 중 하나인 ACM Conference on Computer and Comunnications Security (CCS) 2023에 게재 승인되어 11월에 발표될 예정입니다. 오늘 날의 소프트웨어는 코드 베이스의 크기 및 복잡성 그리고 지속적인 변화로 인하여 취약성을 제거하기가 매우 어려워 많은 보안 사고의 원인이 되고 있습니다. 특히나 소프트웨어의 여러 구성 요소들이 하나의 주소공간에 위치하는 monolithic한 형태를 가진 경우가 많아, 단 한 개의 취약점으로도 프로그램의 전 부분이 위험해지는 문제를 가지고 있습니다. 이를 보완하기 위한 기술로써, 프로그램을 여러 개의 도메인으로 격리하여 각 도메인의 취약성의 위험성을 제안하는 기법인 In-Process Isolation (IPI)가 널리 연구되고 있습니다. 제안된 Capacity는 기존 운영체제 접근제어 기능을 ARM의 새로운 하드웨어 기능인 Pointer Authentication과 Memory Tagging Extension을 통해 확장하여 Capability기만의 접근제어를 구현합니다. Capacity는 프로세스 리소스에 대한 Reference 타입들인 메모리 포인터와 file descriptor를 하드웨어적으로 각 도메인의 키를 통해 서명하고, 모든 사용에 대해 검증함으로써 Capability 시스템을 구현합니다. Capability 철학에 기반하여 서명된 Reference의 보안을 유지하는 장치들이 강건하게 구현되어 보안성이 높으며, 실제 NGINX, OpenSSH등의 프로그램들에 적용하여 그 실용성 및 성능 검증을 마쳤습니다.
-
- 작성일 2023-07-26
- 조회수 1040
-
- [연구] 이지형 교수 연구실(IISLab), ICCV 2023 논문 게재 승인
- 정보 및 지능 시스템 연구실(지도교수:이지형) 노순철 (2022년 인공지능학과 석사 졸업)의 논문 " Simple and Effective Out-of-Distribution Detection via Cosine-based Softmax Loss "가 인공지능 및 컴퓨터 비전 분야의 최우수 국제 학술대회(BK21 CS IF=4)인 International Conference on Computer Vision (ICCV 2023)에 게재 승인되었습니다. " Simple and Effective Out-of-Distribution Detection via Cosine-based Softmax Loss " 논문에서는 out-of-distribution(OOD) 감지를 위한 간단하고 효과적인 방법을 제안합니다. 기존 OOD 감지에서는 추가적인 데이터, Input processing 혹은 높은 연산 비용을 요구하는 경우가 많으며, 사용자가 직접 설정해줘야하는 hypher-parameter가 존재하는 점을 문제로 제기하였습니다. 이는 Cosine- based Softmax Loss로 훈련된 분류 모델에서 feature norm과 Mahalanobis 거리를 결합한 간단하면서도 효과적인 OOD 감지 방법을 제안합니다. 이는 추가 데이터를 사용하지 않아 실용적이며, Input processing을 사용하는 것보다 3배 빠른 속도를 보여줍니다. [Abstract] Deep learning models need to detect out-of-distribution (OOD) data in the inference stage because they are trained to estimate the train distribution and infer the data sampled from the distribution. Many methods have been proposed, but they have some limitations, such as requiring additional data, input processing, or high computational cost. Moreover, most methods have hyperparameters to be set by users, which have a significant impact on the detection rate. We propose a simple and effective OOD detection method by combining the feature norm and the Mahalanobis distance obtained from classification models trained with the cosine- based softmax loss. Our method is practical because it does not use additional data for training, is about three times faster when inferencing than the methods using the input processing, and is easy to apply because it does not have any hyperparameters for OOD detection. We confirm that our method is superior to or at least comparable to state- of-the-art OOD detection methods through the experiments.
-
- 작성일 2023-07-25
- 조회수 2229
-
- [연구] SecAI 연구실(지도교수: 구형준), IEEE Symposium on Security and Privacy 2024 논문 게재 승인
- SecAI 연구실 (지도교수: 구형준)과 고려대학교 김휘강 교수 연구실에서 공동연구한 논문이 컴퓨터 보안 분야에서 최우수 학술대회(IF=4)인 IEEE Symposium on Security and Privacy 2024에 게재 승인되었습니다! 퍼징은 랜덤으로 입력값을 생성해 소프트웨어가 의도하지 않은 행위를 하는지 확인해서 버그를 찾는 기술입니다. 특히 보안 취약점을 찾는데 자주 활용되고 있는데, 마이크로소프트와 구글같은 회사에서도 퍼징을 활용해 자사의 제품을 테스트합니다. 버그 또는 취약점을 유발하는 입력값을 통해 근본 원인을 분석 (root cause analysis)하는데, 크래시 기반의 통계적 디버깅을 이용해 자동화하는 방식을 종종 사용합니다. 이 논문에서는 완화된 조건 하에 상태변이 (under-constrained state mutation)라는 새로운 기법을 소개하고, 기존 방식에 비해 평균 30배 이상 더 적은 메모리로 평균 4배 이상 더 높은 성능을 낼 수 있는 Benzene이라는 시스템을 설계하고 구현했습니다. Abstract. Fuzzing has demonstrated great success in bug discovery and plays a crucial role in software testing today. Despite the increasing popularity of fuzzing, automated root cause analysis (RCA) has drawn less attention. One of the recent advances in RCA is crash-based statistical debugging, which leverages the behavioral differences in program execution between crash-triggered and non-crashing inputs. Hence, obtaining non-crashing behaviors close to the original crash is crucial but challenging with previous approaches (e.g., fuzzing). In this paper, we present BENZENE, a practical end-to-end RCA system that facilitates a fully automated crash diagnosis. To this end, we introduce a novel technique, called under-constrained state mutation, that generates both crashing and non-crashing behaviors for effective and efficient RCA. We design and implement the BENZENE prototype, and evaluate it with 60 vulnerabilities in the wild. Our empirical results demonstrate that BENZENE not only surpasses in performance (i.e., root cause ranking), but also achieves superior results in both speed (4.6 times faster) and memory footprint (31.4 times less) on average than prior approaches.
-
- 작성일 2023-07-18
- 조회수 1176
-
- [연구] 이진규 교수 연구실(실시간 컴퓨팅 연구실, RTCL@SKKU) ACM Mobisys 2023 논문 게재 승인
- 실시간 컴퓨팅 연구실(지도교수: 이진규)에서 작성한 논문이 ACM Mobisys 2023 (the 21st ACM International Conference on Mobile Systems, Applications, and Services)에 게재 승인되었습니다. ACM Mobisys는 매년 40편 내외의 논문만이 발표되는 Mobile System 분야의 최우수 국제 학술대회이며, 올해는 2023년 6월 18일~22일 핀란드 헬싱키에서 총 41편의 논문이 발표될 예정입니다. ACM Mobisys 2023 홈페이지 https://www.sigmobile.org/mobisys/2023/ 실시간 컴퓨팅 연구실 홈페이지 https://rtclskku.github.io/website/ - 논문제목: MixMax: Leveraging Heterogeneous Batteries to Alleviate Low Battery Experience for Mobile Users - RTCL@SKKU 연구실 저자: 곽재헌 석사졸업생(제1저자), 이진규 교수(공동 교신저자) - 연구주제: 서로 다른 종류의 배터리를 활용하여 주어진 부피/무게 등의 제약하에서 기존 모바일 배터리 성능을 뛰어 넘도록 하는 시스템 설계 및 전력사용 스케줄링 기법 - 공동연구 기관: KAIST, 숭실대 - Teaser: https://youtu.be/LPXcpKlQxa0 - Abstract: Despite the physical advance of an existing single-cell battery system, mobile users are still suffering from low battery anxiety. With a careful analysis of users’ battery usage behavior collected for 19,855 hours, we propose a heterogeneous battery system, MixMax, consisting of three complementary battery types tailored to minimizing the low battery time. While composing a heterogeneous battery system opens up a chance to simultaneously improve the capacity and the charging speed, one must face non-trivial challenges to determine the ratio of enclosed batteries and charge/discharge policies during the run-time. They are highly dependent on each other, which entails almost infinite candidates for the choice. MixMax gracefully unwinds the dependencies as it formulates the decision-making problem into an optimization problem and decomposes it into multiple sub-problems instead. To evaluate MixMax, we fabricate coin-cell batteries and experiment with them to model an accurate battery emulator which sophisticatedly reproduces the dynamics of battery systems. Our experimental results demonstrate that MixMax can reduce the low battery time by up to 24.6% without compromising capacity, volume, weight, and more importantly, users’ battery usage behavior. In addition, we prototype MixMax on a smartphone, presenting the practicality of MixMax on mobile systems. 이진규 | jinkyu.lee@skku.edu | 실시간컴퓨팅 Lab. | https://rtclskku.github.io/website/
-
- 작성일 2023-06-07
- 조회수 1403
-
- [연구] 황성재 교수 연구실(소프트웨어 보안 연구실, SoftSec@SKKU) ESEC/FSE 2023 논문 게제 승인
- 황성재 교수 연구실(소프트웨어 보안 연구실, SoftSec@SKKU) ESEC/FSE 2023 논문 게제 승인 소프트웨어 보안 연구실 (지도교수: 황성재)에서 작성한 논문이 소프트웨어 공학 분야의 최상위 국제 학술대회인 FSE 2023 (30th ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering)에 게재 승인되었습니다. 본 논문 “EtherDiffer: Differential Testing on RPC Services of Ethereum Nodes” 은 2023년 12월 미국 샌프란시스코에서 발표될 예정입니다. [논문 정보] - EtherDiffer: Differential Testing on RPC Services of Ethereum Nodes - Shinhae Kim, and Sungjae Hwang - 30th ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/FSE 2023) [논문 요약] 블록체인 노드와 DApps과의 통신을 위한 하나의 RPC 스펙이 존재합니다. 스펙은 하나지만, 블록체인 노드의 구현체는 다양합니다. Go 언어로 작성된 Geth 노드, C++로 작성된 Erigon 노드, C#으로 작성된 Nethermind 노드, Java로 작성된 Besu 노드가 존재합니다. 본 연구는 이렇게 다양한 언어로 개발된 노드들이 하나의 스펙을 잘 따르고 있을까? 혹시 동일한 RPC 명령에 대해 다르게 동작하지 않을까? 노드가 다르게 동작한다면 어떤 문제가 발생할까? 이런 궁금증을 답하기 위해 이더리움 노드의 구현체를 검증하는 차분 테스팅(Differential Testing) 기술을 개발하였습니다. 본 검증 기술을 통해, 48가지의 노드 구현체의 차이점 및 11개의 버그를 자동으로 찾는 결과를 만들어 냈습니다.
-
- 작성일 2023-05-30
- 조회수 1153
-
- [연구] 이성길 교수 컴퓨터그래픽스연구실(CGLab), ACM SIGGRAPH 2023 논문 게재 승인
- 컴퓨터그래픽스연구실(CGLab; 지도교수 이성길) 김장훈 석사과정(소프트웨어학과)의 논문 "Potentially Visible Hidden-Volume Rendering for Multi-View Warping"이 ACM SIGGRAPH 2023에 게재 승인(Accept)되었고, 2023년 8월 미국 LA에서 발표될 예정입니다. ACM SIGGRAPH은 컴퓨터그래픽스 분야 최우수 학회이며, 본 논문은 Journal Track과 Conference Track 중 Journal Track에 게재 승인되었고, ACM Trasactions on Graphics, Volume 42, No. 4의 special issue에 7월 출간될 예정입니다. 본 논문은 Real-Time GPU Rendering에서 유효한 가시도(visibility) 검출에 관한 내용으로, 동일한 픽셀 위치에서 시점이 달라질 때의 새로운 view를 생성하기 위해 필요한 정보만을 효과적으로 modeling하고 추출하는 기하적인 GPU 알고리즘을 제안합니다. 이러한 가시도 model인 PVHV(Potentially Visible Hidden Volume)에 기반하여 새로운 다수 시점의 이미지를 효율적으로 합성할 수 있음을 보이는 내용입니다. 이러한 시점 합성(Novel View Synthesis)은 최근 Compute Vision에서도 Neural Radiance Fields (NeRFs)를 필두로 활발히 연구가 되고 있는 연구 주제입니다. Abstract -------- This paper presents the model and rendering algorithm of Potentially Visible Hidden Volumes (PVHVs) for multi-view image warping. PVHVs are 3D volumes that are occluded at a known source view, but potentially visible at novel views. Given a bound of novel views, we define PVHVs using the edges of foreground fragments from the known view and the bound of novel views. PVHVs can be used to batch-test the visibilities of source fragments without iterating individual novel views in multi-fragment rendering, and thereby, cull redundant fragments prior to warping. We realize the model of PVHVs in Depth Peeling (DP). Our Effective Depth Peeling (EDP) can reduce the number of completely hidden fragments, capture important fragments early, and reduce warping cost. We demonstrate the benefit of our PVHVs and EDP in terms of memory, quality, and performance in multi-view warping.
-
- 작성일 2023-05-25
- 조회수 1357