-
- [연구] SecAI 연구실 (지도교수 구형준) FSE '26에 논문 게재 승인 NEW
- SecAI 연구실 (지도교수 구형준, https://secai.skku.edu/)의 엄지용 학생 (박사과정)과 김민석 학생 (석사과정), 그리고 스토니 브룩 대학교 Michalis Polychronakis가 공동 연구한 "Fool Me If You Can: On the Robustness of Binary Code Similarity Detection Models against Semantics-preserving Transformations" 논문이 소프트웨어 SE 분야 최우수 학회인 Foundations of Software Engineering 2026 (FSE '26)에 게재 승인되어 2026년 7월에 발표할 예정입니다. 소프트웨어 역공학은 취약점 분석 및 악성코드 탐지 등 보안 분야의 핵심적인 과정이지만, 고도의 전문성을 요구합니다. 하지만 이러한 접근 방식만으로는 기하급수적으로 증가하는 최신 위협에 효과적으로 대응하는 데 한계가 있습니다. 이를 해결하기 위해 최근 인공지능을 활용하여 다양한 측면에서 역공학을 보조할 수 있는 기법을 활발히 제안하고 있으며, 특히 기계어 (assembly language)에서 문맥 정보를 추출하는 모델이 많습니다. 하지만 자연어에서 유사한 문맥으로 변형해서 의미를 전달할 수 있듯이 어셈블리어도 동일한 문맥을 유지하면서 다양한 형태로 변형하는 기법 (semantics-preserving code transformations)이 존재하는데, 이런 기법에 대해 인공지능 모델이 얼마나 강건한지에 대한 심도 있는 분석은 미흡합니다. 본 연구는 대표적인 6개의 인공지능 기반 바이너리 유사도 탐지 모델을 대상으로 8가지 변형 기법이 모델 성능에 미치는 영향을 체계적으로 분석합니다. 또한 모델이 오탐(false positive)과 미탐(false negative)과 같이 잘못된 판단을 유도하는 방식도 소개합니다. 이를 위해 620개의 원본 바이너리로부터 총 9,565개의 변형된 바이너리로 구성된 데이터셋을 구축하여 실험을 수행했습니다. 실험 결과 모델의 아키텍쳐 설계 및 전처리 방식에 따라 변형에 대한 강건성이 상이함을 확인하였으며, 특히 공격자가 변형을 정밀하게 설계할 경우 미세한 변형만으로도 모델 성능이 심각하게 저하될 수 있음을 보였습니다. 본 연구는 향후 리버싱 작업 보조용 인공지능 모델 설계 시, 단순한 성능지표를 넘어 바이너리 변형에 대한 강건성 역시 중요하게 고려해야 함을 강조합니다. Abstract: Binary code analysis plays an essential role in cybersecurity, facilitating reverse engineering to reveal the inner workings of programs in the absence of source code. Traditional approaches, such as static and dynamic analysis, extract valuable insights from stripped binaries, but often demand substantial expertise and manual effort. Recent advances in deep learning have opened promising opportunities to enhance binary analysis by capturing latent features and disclosing underlying code semantics. Despite the growing number of binary analysis models based on machine learning, their robustness to adversarial code transformations at the binary level remains underexplored to date. In this work, we evaluate the robustness of deep learning models for the task of binary code similarity detection (BCSD) under semantics-preserving transformations. The unique nature of machine instructions presents distinct challenges compared to the typical input perturbations found in other domains. To achieve our goal, we introduce asmFooler, a system that evaluates the resilience of BCSD models using a diverse set of adversarial code transformations that preserve functional semantics. We construct a dataset of 9,565 binary variants from 620 baseline samples by applying eight semantics-preserving transformations across six representative BCSD models. Our major findings highlight several key insights: i) model robustness highly relies on the design of the processing pipeline, including code pre-processing, model architecture, and internal feature selection, which collectively determine how code semantics are captured; ii) the effectiveness of adversarial transformations is bounded by a transformation budget, shaped by model-specific constraints such as input size limits and the expressive capacity of semantically equivalent instructions; iii) well-crafted adversarial transformations can be highly effective, even when introducing minimal perturbations; and iv) such transformations efficiently disrupt the model's decision (e.g., misleading to false positives or false negatives) by focusing on semantically significant instructions.
-
- 작성일 2026-01-12
- 조회수 229
-
- [연구] SecAI Lab(지도교수 구형준) & SoftSec Lab(지도교수 황성재), NDSS '26에 논문 게재 승인
- SecAI 연구실 (지도교수 구형준, https://secai.skku.edu/)의 엄지용 학생 (박사과정)과 SoftSec 연구실 (지도교수 황성재, https://softsec.skku.edu/)의 Omar Abusabha 학생 (박사과정)이 연구한 "A Deep Dive into Function Inlining and its Security Implications for ML-based Binary Analysis" 논문이 보안분야 최우수학회인 The Network and Distributed System Security Symposium 2026 (NDSS '26)에 게재 승인되어 2026년 2월에 발표할 예정입니다. 함수 인라이닝(Function Inlining) 최적화는 컴파일러가 프로그램 성능을 향상시키기 위해 사용하는 대표적인 기법으로, 함수 호출 대신 해당 함수의 코드를 호출 지점에 직접 삽입함으로써 함수 호출에 따른 오버헤드를 줄입니다. 함수 인라이닝은 컴파일 과정 전반에 걸쳐 광범위하게 적용되며, 최적화 옵션을 비활성화한 경우(-O0)에도 일부 수행됩니다. 최근 바이너리 리버싱 작업을 지원하는 인공지능 모델들은 함수의 다양한 정적 특성에 크게 의존하고 있으나, 이러한 정상적인 인라이닝 최적화가 모델 성능에 미치는 영향에 대한 심도 있는 분석은 지금까지 충분히 이루어지지 않았습니다. 본 연구는 함수 인라이닝이 인공지능 모델이 활용하는 정적 특성을 크게 왜곡하여 성능 저하를 초래할 수 있으며, 난독화와 같은 복잡한 기법을 사용하지 않더라도 컴파일러의 기본 플래그만으로 공격자가 이를 의도적으로 악용할 수 있음을 보입니다. 이를 위해 먼저 LLVM 컴파일러 툴체인의 인라이닝 최적화 메커니즘을 분석하여 인라이닝에 영향을 미치는 컴파일러 옵션을 체계적으로 정리하고, 일반적인 최적화 수준보다 더 높은 인라이닝을 유도할 수 있는 옵션 조합을 도출하였습니다. 이후 바이너리 역공학, 악성코드 탐지 등 다섯 가지 인공지능 기반 작업을 대상으로, 총 20개의 인공지능 모델에 대해 실험을 수행하였습니다. 실험 결과, 함수 인라이닝은 일반적인 성능 최적화 기법임에도 불구하고 다양한 인공지능 모델의 성능에 직·간접적으로 상당한 영향을 미칠 수 있음을 확인하였습니다(예: 악성코드 탐지 우회). 특히 정적 특징에 크게 의존하는 모델일수록 인라이닝 최적화에 매우 민감하게 반응하였으며, 컴파일러 옵션을 미세하게 조정하는 것만으로도 모델의 탐지를 회피하는 바이너리 변종을 생성할 수 있었습니다. 또한 인라이닝 비율은 소프트웨어의 종류와 빌드 환경에 따라 크게 달라지며, 이는 인공지능 모델의 학습 및 평가 과정에서 암묵적으로 가정되는 데이터의 일관성을 훼손할 수 있습니다. 이에 본 연구는 이러한 요인을 반드시 고려해야 함을 강조합니다. Abstract: A function inlining optimization is a widely used transformation in modern compilers, which replaces a call site with the callee's body in need. While this transformation improves performance, it significantly impacts static features such as machine instructions and control flow graphs, which are crucial to binary analysis. Yet, despite its broad impact, the security impact of function inlining remains underexplored to date. In this paper, we present the first comprehensive study of function inlining through the lens of machine learning-based binary analysis. To this end, we dissect the inlining decision pipeline within the LLVM's cost model and explore the combinations of the compiler options that aggressively promote the function inlining ratio beyond standard optimization levels, which we term extreme inlining. We focus on five ML-assisted binary analysis tasks for security, using 20 unique models to systematically evaluate their robustness under extreme inlining scenarios. Our extensive experiments reveal several significant findings: i) function inlining, though a benign transformation in intent, can (in)directly affect ML model behaviors, being potentially exploited by evading discriminative or generative ML models; ii) ML models relying on static features can be highly sensitive to inlining; iii) subtle compiler settings can be leveraged to deliberately craft evasive binary variants; and iv) inlining ratios vary substantially across applications and build configurations, undermining assumptions of consistency in training and evaluation of ML models.
-
- 작성일 2025-12-15
- 조회수 719
-
- [연구] dxlab (박은일 교수 연구실), AAAI 2026 1편, WACV 2026 1편 게재 승인
- dxlab (지도교수: 박은일, https://dsl.skku.edu)의 논문이 인공지능 분야 우수학회인 AAAI 2026에 1편, WACV 2026에 1편 게재 승인(Accept)되었습니다. 해당 논문은 26년 1월(싱가포르)와 3월(애리조나)에서 발표될 예정입니다. 1) (AAAI 2026) “MASP: Multi-Aspect Guided Emotion Reasoning with Soft Prompt Tuning in Vision-Language Models” 논문은 이상은 졸업생(인공지능융합학과, 現 ETRI 연구원), 이유빈 박사과정생(인공지능융합학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Vision-Language Model (VLM) 기반 감정 인식이 이미지의 단일 표현이나 제한된 단서에 의존해 세밀한 감정 판단에 어려움을 겪는 문제를 해결하기 위해, 인간의 감정 판단 과정에서 활용되는 여러 시각 단서를 구조적으로 통합하는 MASP를 제안합니다. MASP는 얼굴 표정, 장면, 객체, 색채, 밝기, 행동의 여섯 가지 감정 단서를 독립적으로 인코딩하는 Multi-Aspect Module을 학습하고, 이를 전체 이미지 특징과 결합하여 보다 풍부한 시각 표현을 구성합니다. 기존 연구가 제한된 관점만 활용한 것과 달리, MASP는 여섯 가지 단서를 모두 분리×통합해 더 정교한 감정 해석을 지원합니다. 이후 Soft Prompt Tuning을 통해 언어 모델에 감정 인식에 특화된 추론 구조를 유도함으로써, 기존 대비 높은 정확도와 안정적인 성능을 달성합니다. Soft Prompt는 프롬프트 표현 변화에 대한 강건성을 높여 실제 환경에서도 안정적인 추론을 가능하게 합니다. MASP는 유사 감정 구분이나 소수 클래스 분류와 같은 까다로운 상황에서도 강인한 성능을 보이며, 멀티모달 감정 이해가 필요한 인간-에이전트 상호작용 등 실제 응용 분야에서 높은 활용 가능성을 보여줍니다. 2) (WACV 2026) “Alignment and Distillation: A Robust Framework for Multimodal Domain Generalizable Human Action Recognition” 논문은 지현빈 석사과정생(실감미디어공학과), 이주엽 박사과정생(인공지능융합학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Human Action Recognition(HAR) 모델이 단일 모달리티나 정적인 융합 방식에 머물러 실제 환경의 도메인 변화에 취약하다는 문제를 해결하기 위해, 멀티모달 단서를 시간적으로 정렬 및 통합하는 Multimodal Alignment and Distillation for Domain Generalization(MAD-DG) 프레임워크를 제안합니다. 이를 위해 MAD-DG는 두 가지 핵심 요소를 중심으로 보다 안정적인 행동 표현을 학습합니다. 먼저, Segment-Label Aligned Contrastive Learning(SLA-CL)은 RGB, Optical Flow, Audio 간의 비동기적 기록 문제를 Temporal Binding Window 기반으로 보정해 모달리티 간 의미적 대응을 정밀하게 맞춥니다. 이를 통해 센서 지연이나 녹화 불일치로 발생하는 잡음을 줄이고 행동의 핵심 패턴을 강조합니다. 이어서 Online Self-Distillation Temporal Module(OSDTM)은 행동이 시간적으로 여러 단계로 전개된다는 점에 착안해 다양한 길이의 segment tuple을 구성하고, soft attention으로 중요한 조합을 선택합니다. Teacher–student 방식의 self-distillation을 통해 도메인 변화에도 흔들리지 않는 시간적 표현을 형성합니다. MAD-DG는 이러한 모달리티 정렬과 다중 스케일 temporal reasoning을 결합해, 기존 모델이 어려워하던 멀티소스 도메인 일반화나 콘텍스트 제거 환경(Mimetics)에서도 높은 성능을 달성합니다. 특히 Optical Flow 정보를 적극적으로 활용해 실제 행동 중심의 표현을 구성하며, 복잡한 행동 이해나 인간–에이전트 협력 시스템 등 다양한 실사용 환경에서 높은 활용 가능성을 보여줍니다.
-
- 작성일 2025-11-17
- 조회수 1150
-
-
- [연구] 보안공학연구실(지도교수: 김형식), ACM Conference on Computer and Communications Security (CCS’25), Best Poster Award 수상
- 보안공학 연구실 (지도교수: 김형식, https://seclab.skku.edu)의 조예나(학부과정) 학생과 김형식 교수가 진행한 "Poster: Scalable Privacy-Preserving Linear Regression Training via Homomorphic Encryption" 논문이 보안 분야 최우수 컨퍼런스 중 하나인 ACM Conference on Computer and Communications Security (CCS’25)에서 Best Poster Awards를 수상했습니다. (41편 중 2편 (~4.9%)에 수여함.) 해당 연구는 암호화된 데이터 환경에서도 효율적으로 선형회귀 모델을 학습할 수 있는 새로운 프로토콜을 제안합니다. CKKS 기반의 PP-LR(Privacy-Preserving Linear Regression) 프로토콜을 개발하여, 기존 동형암호를 활용한 학습 방식의 높은 계산 비용 문제를 해결했습니다. PP-LR은 특징 단위 병렬화와 조건부 부트스트래핑 기법을 사용해 암호화된 상태에서의 경사하강법을 효율적으로 수행할 수 있습니다. 그 결과, 기존 동형암호 구현 대비 최대 15.7배 빠른 학습 속도를 달성하면서도, 평문 학습 모델 대비 정확도 오차 0.2% 이내를 유지했습니다.
-
- 작성일 2025-11-05
- 조회수 883
-
- [연구] 자연어처리연구실(NLP lab, 지도교수: 고영중), EMNLP 2025의 Main Track(long paper)에 논문 2편 게재
- 자연어처리연구실(NLP lab, 지도교수: 고영중)의 논문 2편이 인공지능 및 자연어처리 분야의 Top-tier 국제학술대회인 EMNLP 2025(The 2025 Conference on Empirical Methods in Natural Language Processing)의 Main Track(long paper)에 게재되었습니다. 논문: ECO Decoding: Entropy-Based Control for Controllability and Fluency in Controllable Dialogue Generation, Main Track (long paper) (인공지능학과 석사과정 신승민, 인공지능학과 박사과정 김두영) 논문 요약: 본 연구에서는 기존의 속성 제어 연구 방법론 중 하나인 가중치 기반 생성(Weighted Decoding)에서 엔트로피 기반의 동적인 가중치를 활용하는 방법을 제안합니다. 가중치 기반 생성 방법은 생성 AI의 확률 분포에 각 토큰이 생성될 경우 제어하고자 하는 속성으로 분류될 확률 분포를 결합하여 최종 확률 분포를 계산합니다. 따라서 생성 AI의 추가적인 학습 없이 속성 분류기만을 학습하여 최소한의 학습으로 속성을 제어할 수 있으며, plug-and-play 방식으로 효율적인 활용이 가능합니다. 기존의 가중치 기반 생성 방법은 두 확률 분포의 가중치를 실험적으로 선택하지만, 이러한 방식은 경우에 따라 생성 품질을 저하하거나 속성 제어가 잘 이뤄지지 않을 수 있습니다. 이러한 문제를 해결하기 위해서는 응답에 생성되는 과정에 따라 동적으로 가중치를 할당할 수 있어야 합니다. 본 연구에서는 이러한 동적인 가중치를 할당하기 위해 각 확률 분포의 엔트로피를 활용하였습니다. 엔트로피는 확률 분포의 불확실성을 정량화하는 값입니다. 엔트로피가 높은 경우 선택 가능한 합리적인 토큰 후보가 많고, 엔트로피가 낮은 경우 선택 가능한 토큰이 제한적이라는 점에서 착안하여 엔트로피에 반비례하는 동적인 가중치를 설계하였습니다. 2가지 대화 데이터셋에서 다양한 베이스라인 가중치 기반 생성 기법에 동적인 가중치를 적용한 결과, 추가적인 학습 과정 없이도 높은 생성 품질을 유지하면서 속성 제어가 가능함을 실험적으로 증명하였습니다. 또한 다양한 모델 사이즈에서도 모두 성공적인 제어 결과를 확인할 수 있었습니다. 또한 기존의 가중치 기반 생성 기법에서 다루기 어려웠던 다중 속성 제어 환경에서도 성공적인 성능 향상을 달성할 수 있었습니다. Abstract: Controllable Dialogue Generation (CDG) enables chatbots to generate responses with desired attributes, and weighted decoding methods have achieved significant success in the CDG task. However, using a fixed constant value to manage the bias of attribute probabilities makes it challenging to find an ideal control strength that satisfies both controllability and fluency. To address this issue, we propose ECO decoding (Entropy-based COntrol), which dynamically adjusts the control strength at each generation step according to the model’s entropy in both the language model and attribute classifier probability distributions. Experiments on the DailyDialog and MultiWOZ datasets demonstrate that ECO decoding consistently improves controllability while maintaining fluency and grammaticality, outperforming prior decoding methods across various models and settings. Furthermore, ECO decoding alleviates probability interpolation issues in multiattribute generation and consequently demonstrates strong performance in both single- and multi-attribute scenarios. 논문: Decoding Dense Embeddings: Sparse Autoencoders for Interpreting and Discretizing Dense Retrieval, Main Track (long paper) (인공지능학과 석사과정 박성완, 인공지능학과 석사과정 김택림) 논문 요약: 밀집 문서 검색(Dense Passage Retrieval, DPR)은 우수한 성능을 보이지만, dense embedding의 불투명성으로 인해 검색 결과에 대한 설명 가능성과 신뢰성에 한계가 있습니다. 본 연구는 희소 오토인코더(Sparse Autoencoder, SAE)를 활용하여 DPR의 dense embedding을 해석 가능한 latent concept로 분해하고, 각 concept에 대해 대규모 언어 모델(LLM)을 이용해 자연어 설명을 생성하는 새로운 해석 프레임워크를 제안하고, 다양한 정성적·정량적 실험을 통해 DPR 모델에 대한 SAE 기반 해석의 타당성과 효과성을 검증하였습니다. 더불어, 기존 단어 기반 sparse retrieval 대신, latent concept를 정보 검색 단위로 활용하는 Concept-Level Sparse Retrieval (CL-SR) 구조를 제안하였습니다. 이는 sparse retrieval의 효율성과 해석 가능성을 유지하면서도 dense retrieval 수준의 표현력과 의미적 강건성을 동시에 활용할 수 있는 구조로, 기존 sparse 모델에 비해 높은 검색 효율성과 정확도를 보였으며, 의미 불일치 상황에서도 우수한 성능을 유지하였습니다. Abstract: Despite their strong performance, Dense Passage Retrieval (DPR) models suffer from a lack of interpretability. In this work, we propose a novel interpretability framework that leverages Sparse Autoencoders (SAEs) to decompose previously uninterpretable dense embeddings from DPR models into distinct, interpretable latent concepts. We generate natural language descriptions for each latent concept, enabling human interpretations of both the dense embeddings and the query-document similarity scores of DPR models. We further introduce Concept-Level Sparse Retrieval (CL-SR), a retrieval framework that directly utilizes the extracted latent concepts as indexing units. CL-SR effectively combines the semantic expressiveness of dense embeddings with the transparency and efficiency of sparse representations. We show that CL-SR achieves high computational and storage efficiency while maintaining robust performance across vocabulary and semantic mismatches. 고영중 교수: yjko@skku.edu, nlp.skku.edu, 자연어처리연구실: nlplab.skku.edu
-
- 작성일 2025-10-30
- 조회수 961
-
- [연구] 인공지능융합학과 박은일 교수 연구팀, ICCV 2025 - ABAW VA Estimation Challenge 우승
- 인공지능융합학과 박은일 교수 연구팀, ICCV 2025 - ABAW VA Estimation Challenge 우승 ▲(왼쪽부터) 성균관대 이유빈 박사과정생, 이상은 졸업생(現 ETRI 연구원), 박채원 석사과정생, 차준엽 박사과정생, 박은일 교수 우리 대학 인공지능융합학과 박은일 교수 연구팀이 세계 최고 권위의 인공지능(컴퓨터 비전) 학술대회인 ICCV 2025 (International Conference on Computer Vision)에서 개최된 ABAW (Affective Behavior Analysis in the Wild) / Valence-Arousal Estimation Challenge에서 1위를 차지했다고 밝혔다. 이번 대회는 2025년 10월 미국 하와이에서 열렸으며, 전 세계 유수 대학과 연구기관이 참가해 영상과 음성 등 비정형 멀티모달 데이터를 활용한 감정 상태 예측 기술을 경쟁했다. ▲ ICCV 2025 - ABAW Valence-Arousal Estimation Challenge에서 1위를 차지하며 수상한 인증서 ▲ ICCV 2025에서 1위 수상 연구를 발표하는 이유빈 박사과정(2025년 10월 20일, 미국 하와이 호놀룰루 컨벤션센터) ABAW 챌린지는 실제 환경에서 수집된 복잡한 멀티모달 데이터를 바탕으로 인간의 감정을 Valence-Arousal(긍정-부정, 활성화-비활성화) 축에서 정밀하게 추정하는 기술력을 평가한다. 특히 올해 대회는 시간적 변화에 대한 이해와 멀티모달 융합의 정교함을 요구해, 실시간 감정 추정 및 인간-인공지능 상호작용 분야의 핵심 벤치마크로 자리잡았다. 박은일 교수 연구팀은 Time-aware Gated Fusion(TAGF) 기반의 정서 인식 프레임워크를 제안해 우수한 성과를 거두었다. 제안된 모델은 BiLSTM 게이팅 메커니즘을 활용하여 시간에 따른 감정 변화를 동적으로 반영하고, 불필요한 잡음을 억제하면서 핵심 정서 단서를 강조함으로써 기존 모델 대비 높은 예측 성능을 달성했다. 이 결과는 실제 환경에서도 안정적이고 해석 가능한 감정 인식이 가능함을 보여주며, 향후 인간-AI 상호작용, 감정 기반 콘텐츠 분석, 정서 지능형 에이전트 개발 등 다양한 응용 분야로 확장될 수 있을 것으로 기대된다. ▲ 시각 및 음성 정보를 융합한 Time-aware Gated Fusion(TAGF) 기반 정서 예측 프레임워크 개략도 이번 성과는 박은일 교수 연구팀이 꾸준히 축적해 온 사용자 이해 기반의 범용 인공지능 기술 연구 역량을 다시 한번 세계적으로 인정받은 사례로 평가된다. 연구팀은 향후 감정 이해를 넘어, 인간의 인지적 맥락과 의도를 정밀하게 해석하는 차세대 정서 지능형 인공지능 기술 개발에 주력할 계획이다. 또한 이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 인간지향적 차세대 도전형 AI 기술 개발과 딥페이크 연구센터 사업의 일환으로 수행되었으며, ICCV 2025에서 공식 발표되었다. ※ 논문명: Dynamic Temporal Gating Networks for Cross-Modal Valence-Arousal Estimation ※ 저자명: 이유빈(제1저자), 이상은, 박채원, 차준엽(공동저자), 박은일(교신저자) ※ 학술대회: ICCV 2025 (International Conference on Computer Vision)
-
- 작성일 2025-10-30
- 조회수 1009
-
- [연구] [차수영 교수] 소프트웨어분석 연구실(SAL), ICSE 2026 논문 게재 승인
- 소프트웨어 분석 연구실 (지도교수: 차수영)의 김민종 학생 (박사과정)의 논문이 소프트웨어공학 분야 최우수 학회인 ICSE 2026 (IEEE/ACM International Conference on Software Engineering)에 게재 승인(Accept) 되었습니다. 해당 논문은 2026년 4월에 브라질 Rio에서 발표될 예정입니다. 본 논문 "Enhancing Symbolic Execution with Self-Configuring Parameters"은 강력한 소프트웨어 테스팅 방법론인 “기호 실행(Symbolic Execution)”의 성능을 높이기 위해, 완전히 자동화된 외부 파라미터 값 조정(external parameter tuning) 기술을 제안한다. 학계나 산업계에서 널리 사용되는 실용적인 기호 실행 도구들은 일반적으로 그 성능에 영향을 끼치는 다양한 외부 파라미터들을 적게는 수십 개에서 많게는 수백 개까지 포함하고 있다. 그러나, 기호 실행을 기존의 파라미터 조정 기술들은 테스트 대상 소프트웨어마다 수작업으로 값을 조정하거나 사용자의 개입을 요구하는 반자동화(Semi-Automatic) 방식만 존재했다. 본 논문에서는 학계에 잘 알려진 두 가지 기호 실행 도구들(KLEE, CREST)에 사용자의 개입이 없이도 적절한 외부 파라미터 값을 자동으로 선정할 수 있는 방법인 ParaSuit를 제안한다. 실험적으로, ParaSuit는 다수의 오픈소스-C 프로그램을 대상으로 기존의 최신 파라미터 조정 기술과 비교해서 분기 커버리지(Branch Coverage)와 오류 검출 능력을 크게 향상시키는데 성공하였다. [논문 정보] - 제목: Enhancing Symbolic Execution with Self-Configuring Parameters - 저자: 김민종, 차수영 - 학회: IEEE/ACM International Conference on Software Engineering (ICSE 2026) Abstract: We present ParaSuit, a self-configuring technique that enhances symbolic execution by autonomously adjusting its parameters tailored to each program under test. Modern symbolic execution tools are typically equipped with various external parameters to effectively test real-world programs. However, the need for users to fine-tune a multitude of parameters for optimal testing outcomes makes these tools harder to use and limits their potential benefits. Despite recent efforts to improve this tuning process, existing techniques are not self-configuring; they cannot dynamically identify which parameters to tune for each target program, and for each manually selected parameter, they sample a value from a fixed, user-defined set of candidate values that is specific to that parameter and remains unchanged across programs. The goal of this paper is to automatically configure symbolic execution parameters from scratch for each program. To this end, ParaSuit begins by automatically identifying all available parameters in the symbolic execution tool and evaluating each parameter’s impact through interactions with the tool. It then applies a specialized algorithm to iteratively select promising parameters, construct sampling spaces for each, and update their sampling probabilities based on data accumulated from symbolic execution runs using sampled parameter values. We implemented ParaSuit on KLEE and assessed it across 12 open-source C programs. The results demonstrate that ParaSuit significantly outperforms the state-of-the-art method without selfconfiguring parameters, achieving an average of 26% higher branch coverage. Remarkably, ParaSuit identified 11 unique bugs, four of which were exclusively discovered by ParaSuit.
-
- 작성일 2025-10-27
- 조회수 1131
-
- [연구] 구형준 교수 (SecAI 연구실), ACM Conference on Computer and Communications Security (CCS’25), Distinguished Paper Award 수상
- SecAI 연구실 (지도교수 구형준, https://secai.skku.edu/)에서 Shakhzod 학생 (석사과정)과 전미진 학생 (석사과정)이 연구한 "A Decade-long Landscape of Advanced Persistent Threats: Longitudinal Analysis and Global Trends" 논문이 보안 분야 최우수학회인 ACM Conference on Computer and Communications Security (CCS’25) 학회에서 Distinguished Paper Award를 수상했다. (316편 중 30편 (~9.4%)에 수여함). 해당 논문은 지난 10년 간 (2014–2023) 수집된 총 1,509건의 개별 APT 기술 보고서 (24,215페이지)를 분석하여 603개의 고유한 APT 그룹을 식별하고, 이를 통해 APT 공격의 전반적 양상과 글로벌 트렌드를 거시적 관점에서 분석한다. 이를 위해 기술 보고서를 중심으로 한 세 가지 소스와 위협 행위자 중심의 또 다른 세 가지 소스를 포함한 신뢰할 수 있는 6개 출처와 177개의 관련 뉴스 기사를 활용하였으며, 대용량 문서 처리를 위해 규칙 기반 정보 검색 기법과 대형 언어 모델(LLM) 기반 검색 기법을 결합한 하이브리드 기법을 적용했다. 그 결과, APT 캠페인의 10년간 진화 과정, 사이버 위협 인텔리전스 기록 현황, APT의 공통적 특성, 그리고 정치적 사건, 국제 분쟁, 글로벌 팬데믹 등 외부 요인이 APT 활동에 미치는 영향 등을 종합적으로 분석할 수 있었다. 특히 10년 동안 총 154개국이 APT의 영향을 받았으며, 초기 침입 벡터로는 주로 악성 문서와 스피어 피싱이 사용되었고 2016년 이후 제로데이(zero-day) 취약점 활용이 감소하는 추세를 보였다. 또한, APT의 글로벌 동향을 직관적으로 이해할 수 있도록 APT 지도와 위협 행위자들과 표적 국가들 간의 관계를 보여주는 흐름도를 통해 시각화 자료도 제공한다.
-
- 작성일 2025-10-23
- 조회수 1681
-
- [연구] [구형준 교수] SecAI 연구실, Annual Computer Security Applications Conference 2025 (ACSAC ’25) 논문 게재 승인
- SecAI 연구실 (지도교수 구형준, https://secai.skku.edu) 김민석 학생 (석사과정)의 "Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems" 논문이 보안분야 우수학회인 Annual Computer Security Applications Conference (ACSAC) (ACSAC ’25)에 게재 승인되어 2025년 12월에 발표할 예정입니다. 검색증강생성 (Retrieval-Augmented Generation, RAG) 기술은 대규모 언어 모델의 한계인 환각 현상과 최신 정보 부족 문제를 해결하기 위해 외부 지식베이스를 활용하는 기술로 주목받고 있습니다. 하지만 최근 연구들은 악의적인 공격자가 위키피디아와 같은 공개 지식 소스에 오염된 정보를 주입하여 RAG 시스템이 잘못된 답변을 생성하도록 유도할 수 있음을 보여주었습니다. 기존 방어 기법들은 효과적이지만 각 문서를 개별 검증하거나 별도 모델 학습이 필요해 상당한 계산 비용이 발생하는 한계가 있었습니다. 본 연구에서는 추가적인 언어 모델 추론이나 모델 재학습 없이도 악성 콘텐츠를 효과적으로 탐지하는 RAGDefender를 제안합니다. 핵심 기술은 검색된 문서들 간의 의미적 유사도와 TF-IDF 기반 어휘 패턴을 활용한 2단계 필터링 메커니즘으로, 첫 번째 단계에서는 계층적 클러스터링(single-hop QA) 또는 집중도 분석(multi-hop QA)을 통해 잠재적 악성 문서 수를 추정하고, 두 번째 단계에서는 코사인 유사도 기반 쌍별 순위화와 빈도 점수를 계산하여 악성 문서를 정밀 식별합니다. NQ, HotpotQA, MS MARCO 데이터셋에서 3가지 공격 기법과 6가지 언어 모델(LLaMA, Vicuna, GPT-4o, Gemini)을 대상으로 실험한 결과, 악성 문서가 정상 문서보다 4배 많은 상황에서도 공격 성공률을 0.89에서 0.02로 감소시키며 답변 정확도는 0.21에서 0.73으로 향상시켰습니다. 특히 기존 기법 대비 12.36배 빠른 처리 속도를 달성하면서도 GPU 메모리를 전혀 사용하지 않아, 다양한 RAG 프레임워크와 여러 검색 모델에 즉시 통합 가능한 실용적 방어 솔루션임을 입증했습니다. Abstract: Large language models (LLMs) are reshaping numerous facets of our daily lives, leading to widespread adoption as web-based services. Despite their versatility, LLMs face notable challenges, such as generating hallucinated content and lacking access to up-to-date information. Lately, to address such limitations, Retrieval-Augmented Generation (RAG) has emerged as a promising direction by generating responses grounded in external knowledge sources. A typical RAG system consists of i) a retriever that probes a group of relevant passages from a knowledge base and ii) a generator that formulates a response based on the retrieved content. However, as with other AI systems, recent studies demonstrate the vulnerability of RAG, such as knowledge corruption attacks by injecting misleading information. In response, several defense strategies have been proposed, including having LLMs inspect the retrieved passages individually or fine-tuning robust retrievers. While effective, such approaches often come with substantial computational costs. In this work, we introduce RAGDEFENDER, a resource-efficient defense mechanism against knowledge corruption (i.e., by data poisoning) attacks in practical RAG deployments. RAGDEFENDER operates during the post-retrieval phase, leveraging lightweight machine learning techniques to detect and filter out adversarial content without requiring additional model training or inference. Our empirical evaluations show that RAGDEFENDER consistently outperforms existing state-of-the-art defenses across multiple models and adversarial scenarios: e.g., RAGDEFENDER reduces the attack success rate (ASR) against the Gemini model from 0.89 to as low as 0.02, compared to 0.69 for RobustRAG and 0.24 for Discern-and-Answer when adversarial passages outnumber legitimate ones by a factor of four (4x).
-
- 작성일 2025-10-14
- 조회수 1182
발전기금







