-
- [연구] 고영중 교수 연구실(자연어처리연구실,NLP Lab), ACL 2026 논문 1편 게재 승인 NEW
- 자연어처리연구실(NLP lab, 지도교수: 고영중)의 논문 1편이 인공지능 및 자연어처리 분야의 Top-tier 국제학술대회인 ACL 2026 (The 64th Annual Meeting of the Association for Computational Linguistics)의 Findings에 게재되었습니다. 논문: ConvX: A Lightweight Converter to Bridge Indexed Dense Representations and Large Language Models for Retrieval-Augmented Generation (인공지능학과 박사과정 최봉근, 인공지능학과 박사과정 김근하, 인공지능학과 석박사통합과정 한준호) 논문 요약: 본 연구에서는 RAG 파이프라인의 치명적인 효율성 문제와, 이를 해결하기 위한 기존 압축 기반 방법론들이 검색된 문맥을 다시 인코딩하며 발생하는 이중 인코딩(double-encoding) 문제를 해소하기 위해, 검색기가 생성한 색인된 밀집 표현(dense representation)을 직접 활용하여 긴 텍스트 문맥을 전적으로 대체하는 효과적인 압축 기반 RAG 프레임워크인 ConvX를 제안합니다. 제안한 방법은 경량 변환기(converter)를 통해 단일 밀집 표현을 고정된 수의 메모리 슬롯으로 확장합니다. 메모리 슬롯으로부터 문단 수준의 어휘 정보를 복원하도록 변환기를 학습합니다. 변환기를 통해 생성된 메모리 슬롯은 LLM의 기존 토큰 임베딩과 특성이 상이하므로, LLM이 메모리 슬롯에 대한 내용을 복원할 수 있도록 사전학습을 수행합니다. 이때, 다중 문서의 RAG 시스템에 적용할 수 있도록 단일 및 다중 문단 메모리 슬롯을 복원하도록 학습합니다. 이러한 설계는 입력 길이와 계산 오버헤드를 크게 줄이면서도 효율적인 지식 통합을 가능하게 합니다. 실험 결과, 제안한 모델은 RAG 환경에서 기존의 ad-hoc 문맥 압축 기법들 대비 우수한 성능을 달성하는 동시에, 추론 효율성을 크게 향상시킴을 확인하였습니다. Abstract: Retrieval-Augmented Generation (RAG) has significantly advanced open-domain question answering and dialogue systems by incorporating external knowledge into large language models. Despite its effectiveness, existing RAG pipelines suffer from critical efficiency limitations. In particular, modern transformer-based generators exhibit quadratic or higher computational complexity with respect to input sequence length and hidden dimensionality, leading to substantial inference latency as model scales and contextual inputs increase. This issue is exacerbated in RAG settings, where retrieved contexts substantially expand the input prompt. To alleviate this challenge, we propose an effective compression-based RAG framework, ConvX, that directly leverages indexed dense representations produced by a retriever, entirely substituting to long text contexts. Our approach expands a single dense representation into a fixed number of memory slots using a lightweight converter to provide rich lexical information. This design enables efficient knowledge integration while significantly reducing input length and computational overhead. Empirical evaluations demonstrate that the proposed model achieves outstanding performances compared to existing ad-hoc context compression methods in RAG setting, while offering substantially improved inference efficiency. 고영중 교수: yjko@skku.edu, nlp.skku.edu, 자연어처리연구실: nlplab.skku.edu
-
- 작성일 2026-06-08
- 조회수 360
-
- [연구] 타메르 교수 연구실(InfoLab), ACM KDD 2026 논문 1편 게재 승인
- 타메르 교수 연구실(InfoLab)의 논문이 데이터 과학, 인공지능, 지식 발견 및 데이터 마이닝 분야의 권위 있는 국제학회인 ACM KDD 2026에 게재 승인(Accept)되었습니다. 해당 논문은 2026년 8월 9일부터 13일까지 대한민국 제주에서 개최되는 ACM KDD 2026에서 발표될 예정입니다. 그림 1. 정적 앙상블 모델 대비 VisionDES의 장점을 보여주는 예시. 빨간색으로 표시된 모델은 공격을 받은 모델을 의미합니다. 본 논문 “VisionDES: Robust and Explainable Dynamic Vision Ensemble”에서는 컴퓨터 비전 과제를 위한 동적 앙상블 선택 프레임워크인 VisionDES를 제안합니다. VisionDES는 딥 비전 임베딩과 근사 최근접 이웃 탐색을 활용하여 각 테스트 이미지에 대한 국소 역량 영역(Region of Competence, RoC)을 식별하고, 최종 예측을 위해 가장 신뢰할 수 있는 모델을 동적으로 선택하고 가중치를 부여합니다. 이를 통해 적대적 공격 및 분포 변화 상황에서의 강건성을 향상시키는 동시에, 개별 예측 수준의 해석 가능성을 제공합니다. 그림 2. 제안된 VisionDES 프레임워크. 학습, 선택, 집계의 세 가지 주요 단계로 구성됩니다. 본 연구에서는 정상 조건, 적대적 공격, 분포 변화 상황에서 여러 이미지 데이터셋을 활용한 광범위한 실험을 수행했습니다. 실험 결과, VisionDES는 정적 앙상블 및 불확실성 기반 동적 앙상블 방법보다 우수한 성능을 보였으며, 강한 공격 상황에서 최대 20% 더 높은 강건 정확도를 달성하고, 분포 변화 상황에서는 2–3% 더 높은 정확도를 보였습니다. 그림 3. 정상 이미지와 적대적 이미지 조건에서의 테스트 이미지 해석 가능성 예시. 각 모델의 Region of Competence(RoC) 내 동작, 예측 결과, 그리고 FAISS로 계산된 L2 거리 기반 RoC 샘플을 보여줍니다. VisionDES는 앙상블 모델을 더욱 적응적이고, 적대적 공격 및 분포 변화에 더 강건하며, 개별 예측 수준에서 더 설명 가능한 모델로 만들어 신뢰할 수 있는 컴퓨터 비전 기술 발전에 기여합니다. InfoLab의 연구 활동에 대한 자세한 내용은 https://infolab.skku.edu 에서 확인할 수 있습니다.
-
- 작성일 2026-05-22
- 조회수 913
-
- [연구] 우홍욱 교수 연구실(CSI연구실), ICML 2026 논문 3편 게재 승인
- 우홍욱 교수 연구실(CSI연구실), ICML 2026 논문 3편 게재 승인 CSI연구실(지도교수: 우홍욱, https://csiagentgroup.com)의 논문이 인공지능 분야 우수학회인 ICML 2026 (The Forty-Third International Conference on Machine Learning)에 3편 논문이 게재 승인(Accept) 되었습니다. 논문은 26년 7월 서울 코엑스 컨벤션 센터에서 발표될 예정입니다. 1. 논문 “Functional Cache Grafting: Robust and Rapid Code-Policy Synthesis for Embodied Agents”은 소프트웨어학과 천세헌(석박통합과정), 최원제(박사과정), 최세라(석박통합과정), 안상현(석사과정) 연구원이 저자로 참여했습니다. 본 연구에서는 체화 에이전트(embodied agents)가 자연어 지시와 환경 관찰을 바탕으로 실행 가능한 코드 정책(code policy)을 생성할 때 발생하는 지연 시간과 낮은 안정성 문제를 다루었습니다. 이를 해결하기 위해 본 논문은 함수 단위로 검증된 코드 구조와 Transformer의 KV cache를 재사용하는 Functional Cache Grafting(FCGRAFT) 프레임워크를 제안합니다. FCGRAFT는 기존에 성공적으로 실행된 코드 정책을 함수 단위로 분해하여 Function-Interface tier와 Function-Code tier로 구성된 two-tier code cache에 저장합니다. 이후 새로운 작업이 주어지면, cache-stitching을 통해 검증된 함수 구조를 조합하고, 실행 중 오류가 발생하면 cache-patching을 통해 문제가 되는 코드 구간만 국소적으로 수정합니다. ALFRED, TEACh, RLBench 및 실제 Franka 로봇 조작 환경에서의 실험 결과, FCGRAFT는 기존 RAGCache 대비 평균 18.31% 높은 작업 성공률과 2.3배 빠른 정책 합성 속도를 달성했습니다. 이러한 결과는 FCGRAFT가 지속적으로 변화하는 개방형 환경에서 코드 기반 정책을 효율적으로 재사용·수정함으로써, 체화 에이전트의 실시간성과 강건성을 동시에 향상시킬 수 있음을 보여줍니다. 2. 논문 “Efficient Skill Grounding via Code Refactoring with Small Language Models”은 소프트웨어학과 최세라(석박통합과정), 최원제(박사과정), 천세헌(석박통합과정), 이대희(석박통합과정), 김주영(석사과정), 시스템경영공학과 이채은(학사과정) 연구원이 저자로 참여했습니다. 본 연구에서는 소형 언어모델(sLM)이 배포 환경의 제약 속에서도 효율적인 스킬 그라운딩(skill grounding)을 수행할 수 있도록 하는 리팩토링 중심(refactoring-centric) 에이전트 프레임워크 RECENT를 제안합니다. 기존 Code-as-Policies(CaP) 방식이 로봇 형태나 환경이 바뀔 때마다 스킬 코드를 처음부터 재생성해야 하는 문제를 해결하여, 소형 언어모델만으로도 안정적인 장기(long-horizon) 로봇 제어를 가능하게 하는 것을 목표로 합니다. RECENT는 스킬 코드를 변하지 않는 의미적 의도(semantic intent)와 배포 환경에 종속적인 실행 바인딩(execution bindings)을 분리하고, 사전에 결정 가능한 임바디먼트(embodiment) 충돌은 온톨로지 기반 추론을 통한 Fill-in-the-Middle 기반의 국소적 코드 편집으로 해결합니다. 실행 시점에 확인 가능한 환경적 요인은 단위 테스트(unit-test)로 문제 발생 가능성을 감지하고, 아직 실행되지 않은 코드 조각만을 FIM 방식으로 패치하여 로봇 실행을 중단시키지 않으면서 실행 중 적응(in-situ adaptation)을 수행합니다. CoppeliaSim과 Genesis에서 로봇 종류와 그리퍼 종류가 달라지는 시나리오를 세팅하여 평가한 결과, RECENT는 동일 크기의 증류(distilled) sLM 기반 CaP-CodeV-R1 대비 과제 성공률을 62.78% 향상시키고 코드 수정에 소요되는 시간을 평균 43.83초에서 2.60초 수준으로 단축했습니다. 이를 통해 RECENT는 소형 언어모델로도 배포 환경의 제약 속에서 안정적이고 효율적인 스킬 재사용이 가능함을 입증했습니다. 3. 논문 “Knothe-Rosenblatt Quantile Regression for Risk-sensitive Multi-objective Reinforcement Learning” 은 소프트웨어학과 유광표(박사과정), 김우경(박사과정) 연구원이 저자로 참여했습니다. 본 연구에서는 다목적 강화학습에도 위험 민감 강화학습을 할 수 있도록 Knothe-Rosenblatt (KR) map을 통한 위험 민감 강화학습 프레임워크를 제시하였습니다. 기존 위험 민감 강화학습은 다목적 환경에서 학습할 수 없는 문제를 가지고 있는데, 본 연구에서는 p은 분위수 함수를 Autoregressive한 map으로 표현하고, 이를 통해 Multivariate Distributional Bellman Equation의 수렴 및 벡터 위험 측도의 적절성을 증명하였습니다. 구현적 측면에서는 1. 인위적 순서 편향성 완화: KR 맵이 태생적으로 유발하는 목적 함수 간의 인위적인 순서 의존성 문제를 해결하기 위해, 위치 인코딩(Positional Encoding)이 생략된 트랜스포머(Transformer) 아키텍처를 임베딩 계층에 활용했습니다. 2. MO-TQC를 통한 학습 안정성 확보: 다목적 환경 특유의 과대적합(Overestimation bias)을 방지하고 분포 정밀도를 제어하기 위해, 차원별(dimension-wise) 및 합산(summation) 원자 제거 메커니즘을 포함하는 MO-TQC를 새롭게 고안했습니다. 본 연구는 다목적 강화학습의 표준 벤치마크인 MO-Gymnasium (Cheetah, Hopper 등) 및 실제 데이터 기반의 금융 포트폴리오 관리 환경(FinRL)에서 기장 뛰어난 비교군 대비 평균 29.77%의 전반적인 성능 (EU, HV) 향상을 기록했습니다. 특히 하위 10%의 최악의 상황을 고려하는 위험 민감 지표에서는 (EU_risk, HV_risk) 41.18%의 성능 향상을 달성하였습니다. 금융 환경에서 (unseen 데이터) 결과 수익률(Earnings) 25.40%, Sortino 지수 4.50, Sharpe 지수 2.01이라는 성과를 달성했습니다. (동일 기간 나스닥 100(Nasdaq 100) 벤치마크의 수익률 7.70%). CSI 연구실은 Embodied Agent, Reinforcement Learning, Self-Learning 기술을 활용하여 범용 인공지능 에이전트 연구와 로봇, 드론 자율주행 연구 등을 수행하고 있습니다. 우홍욱 | hwoo@skku.edu | CSI Lab | https://csiagentgroup.com
-
- 작성일 2026-05-18
- 조회수 971
-
- [연구] 김유성 교수 연구실 (CSI Lab.) ICML 2026 논문 게재 승인
- CSI 연구실의 (지도교수: 김유성) 논문이 인공지능 분야 우수학회인 ICML (International Conference on Machine Learning) 2026 게재 승인되었습니다. 논문 "Learning Generalizable Skill Policy with Data-Efficient Unsupervised RL" 은 박종찬(박사과정), 백승호(박사과정), 오승준(박사과정) 이 저자로 참여했습니다. 본 연구는 보상 없이 다양한 행동 스킬을 학습하는 Unsupervised Reinforcement Learning (URL) 환경에서, 기존 방법들이 겪는 표현 불안정성(semantic drift)**과 일반화 한계 문제를 해결하는 새로운 학습 프레임워크를 제안합니다.특히, 과거 데이터를 현재 의미에 맞게 재해석하는 skill relabeling 기법을 통해 학습 안정성과 데이터 효율성을 동시에 향상시켰으며, 다양한 환경에서 기존 방법 대비 우수한 성능을 보였습니다. 본 결과는 향후 로봇 제어 및 자율 시스템에서 보다 효율적이고 일반화 가능한 행동 학습 기술로의 확장 가능성을 제시합니다. 김유성 | yskim525@skku.edu | CSI Lab. | https://csi-skku.github.io
-
- 작성일 2026-05-08
- 조회수 1280
-
- [연구] 보안공학연구실(김형식 교수 지도), CHI 2026 논문 2편 게재 승인
- 보안공학연구실, CHI 2026 논문 2편 게재 승인 대규모 보안 사고 이후 사용자 인식과 대응 행동의 한계 실증 분석 성균관대학교 보안공학연구실(지도교수 김형식)의 연구 2편이 HCI 분야 최고 권위 국제학술대회인 CHI 2026에 게재 승인되었다. 이번 성과는 대규모 보안 사고 이후 사용자가 위험을 어떻게 이해하고, 실제로 어떤 대응 행동을 보이는지를 실증적으로 분석했다는 점에서 의미가 크다. 한 연구는 KAIST와의 공동연구로 국내 대규모 SIM 정보 유출 사고를 다루었고, 다른 연구는 조지아텍, Samsung Research와의 공동연구로 FTX 붕괴 이후 암호화폐 이용자의 보안 인식 변화와 대응 양상을 분석했다. 두 연구는 모두 보안 문제를 기술적 취약점 자체에만 한정하지 않고, 사용자의 인식, 신뢰, 행동까지 함께 살펴보며 사용자 중심 보안 설계의 중요성을 보여주었다. 첫 번째 논문인 "Mind the SIM: Awareness and Mental Models in a South Korean Case Study”는 2025년 국내 대규모 SIM 인증정보 유출 사고를 배경으로, 사용자가 SIM 기반 인증과 관련된 위험을 어떻게 이해하는지 분석한 연구이다. 연구팀은 국내 이용자 33명을 대상으로 인터뷰와 멘탈모델 분석을 수행한 결과, 많은 사용자가 사고 발생 사실은 인지하고 있었지만 무엇이 유출되었고 그것이 어떤 위험으로 이어질 수 있는지는 정확히 이해하지 못하고 있음을 확인했다. 특히 사고의 심각성을 막연히 느끼면서도 자신의 피해 가능성은 낮게 인식하거나, 통신사가 조치할 문제라고 생각해 적극적인 대응을 하지 않는 경향이 뚜렷하게 나타났다. 이는 보안 사고에서 자주 지적되는 ‘인지와 행동의 간극’이 통신 인증 인프라 영역에서도 분명하게 존재함을 보여준다. 연구팀은 이러한 결과를 바탕으로, 향후 통신 보안 서비스와 인증 체계는 기술적 안전성뿐 아니라 사용자가 위험을 올바르게 이해하고 실제 보호 행동으로 이어질 수 있도록 돕는 설명 방식과 안내 구조를 함께 설계해야 한다고 제안했다. 두 번째 논문인 “I just have faith in my wallet to not mismanage my crypto”: Investigating Changes in Users’ Security Perceptions Post-FTX Collapse”는 FTX 붕괴 이후 암호화폐 이용자들이 거래소 보관형 지갑과 개인 보관형 지갑의 보안을 어떻게 인식하게 되었는지, 그리고 그 인식 변화가 실제 대응 행동으로 이어졌는지를 분석한 연구이다. 연구팀은 심층 인터뷰 22건과 후속 설문 430명을 통해, 대형 사고 이후 중앙화 거래소에 대한 신뢰는 전반적으로 낮아지고 개인이 직접 관리하는 지갑의 보안성은 더 높게 평가되는 경향이 나타났음을 확인했다. 그러나 이러한 인식 변화가 실제 행동으로 이어지는 경우는 제한적이었다. 상당수 사용자는 여전히 기존 서비스에 자산을 그대로 두었고, 거래소가 자신의 개인키를 보관한다는 핵심 구조조차 정확히 이해하지 못하는 경우도 적지 않았다. 특히 위험을 인지하고도 별다른 조치를 취하지 않거나, 스스로 더 안전한 방식을 사용하고 있다고 믿지만 실제로는 여전히 위험한 구조에 머물러 있는 사용자 집단이 확인되었다. 연구팀은 이를 통해 암호화폐 서비스의 보안 안내가 단순한 정보 제공을 넘어, 사용자가 자신의 위험을 구체적으로 점검하고 즉시 행동할 수 있도록 돕는 방향으로 개선되어야 한다고 강조했다. 이번 CHI 2026 게재 승인은 보안공학연구실이 기술 중심 보안 연구를 넘어, 실제 사용자 경험과 행동을 정밀하게 분석하는 인간 중심 보안 연구에서도 국제적 경쟁력을 확보하고 있음을 보여준다. 두 연구는 서로 다른 도메인을 다루고 있지만, 공통적으로 대규모 사고 이후에도 사용자의 이해 부족, 불완전한 멘탈 모델, 행동 지연이 반복된다는 점을 실증적으로 확인했다. 이는 앞으로의 보안 기술이 단순히 더 안전한 시스템을 만드는 데 그쳐서는 안 되며, 사용자가 위험을 이해하고 적절히 대응할 수 있도록 지원하는 방향으로 함께 발전해야 함을 시사한다. 두 연구 결과는 ACM CHI 2026 (바르셀로나)에서 현지 시간 4월 14에 발표될 예정이다.
-
- 작성일 2026-04-15
- 조회수 2302
-
- [연구] 소프트웨어 보안 연구실 (지도교수 황성재) FSE '26에 논문 게재 승인
- 소프트웨어 보안 연구실 (지도교수 황성재, https://softsec.skku.edu/)의 홍종찬 학생 (석사과정)과 김재원 학생 (석사과정)의 논문이 소프트웨어공학 분야 최우수 학회인 Foundations of Software Engineering 2026 (FSE '26)에 게재 승인되어 2026년 7월에 캐나다에서 발표될 예정입니다. 본 논문은 전기차 보급 확대로 충전 인프라가 빠르게 성장하면서, 사용자 인증과 요금 청구 등 보안에 중요한 기능을 수행하는 충전소 관리 시스템(CSMS)의 중요성도 커지고 있다. CSMS는 충전기(CS)와 OCPP(Open Charge Point Protocol)를 통해 통신하지만, OCPP는 최대 48개 필드를 포함하는 복잡한 메시지 구조, 메시지 내부 필드 간 의존성과 메시지 간 필드 의존성, 그리고 CS와 CSMS의 상태를 함께 고려해야 하는 상태 기반 특성으로 인해 보안 테스트가 매우 어렵다. 이로 인해 실제 환경에서는 서비스 거부(DoS), 무단 무료 충전, 데이터 유출과 같은 공격이 발생해 왔음에도 불구하고, CSMS 보안에 대한 연구와 자동화된 테스트 도구는 부족한 실정이다. 본 논문에서는 이러한 문제를 해결하기 위해 OCPP 명세로부터 휴리스틱 규칙 기반 추출 기법과 대규모 언어 모델(LLM)을 결합하여 메시지 구조, 필드 제약 조건, 의존 규칙 및 CS–CSMS 상태 전이를 자동으로 추출하는 명세 기반 퍼징 프레임워크 OCPPuzz를 제안한다. 네 개의 오픈소스 CSMS 구현체를 대상으로 평가한 결과, DoS 및 무단 무료 충전으로 이어질 수 있는 다수의 심각한 명세 위반과 보안 취약점을 발견하였고, 총 930건의 구현 버그 중 492건이 인정되었으며, OCPP 명세 버그 134건 중 79건이 수정이 반영되었으며 85건이 추가 조사를 위해 인정되었다. Abstract: Electric vehicles (EVs) are being rapidly adopted, with over 61,000 publicly accessible charging stations deployed across the United States as of 2024. A core component of this infrastructure is the Charging Station Management System (CSMS), which is responsible for security-critical tasks such as user authentication and billing. Given its importance, the CSMS has become a target of real-world attacks that have resulted in financial losses, data breaches, and denial-of-service(DoS) incidents. Nevertheless, research on CSMS security remains limited, and automated testing tools are lacking. Testing CSMS is challenging because they communicate with charging stations (CS) using the Open Charge Point Protocol (OCPP). Effective testing must contend with OCPP's complexity: 1) messages containing up to 48 fields, 2) inter- and intra-message field dependencies, and 3) its stateful nature, which requires tracking the states of both CS and CSMS during testing. To address these challenges, we present OCPPuzz, a specification-based fuzzing framework for CSMS. OCPPuzz automatically extracts message structures, field constraints, and dependency rules from the OCPP specification, as well as valid CS-CSMS state transitions described in its use case diagrams. To handle specifications expressed in natural language and semi-formal diagrams, OCPPuzz combines heuristic rule-based extraction with large language models (LLMs). We evaluated OCPPuzz on four open-source CSMS implementations and uncovered numerous deviations from the OCPP specification that led to critical security issues, including DoS and free charging. We reported 930 implementation bugs to the corresponding vendors, of which 492 have been acknowledged so far. In addition, we reported 134 specification bugs in OCPP to the Open Charge Alliance (OCA); 79 have been committed for fixes and 85 acknowledged for further investigation. We expect additional acknowledgments and fixes in the near future.
-
- 작성일 2026-02-06
- 조회수 3236
-
- [연구] 소프트웨어 보안 연구실 (지도교수 황성재) WWW 2026에 게재 승인
- SoftSec 연구실 (지도교수 황성재, https://softsec.skku.edu/)의 김도희 학생 (박사과정)과 Zhao Hui 학생 (석사과정), 그리고 미국 테네시 대학교(University of Tennessee)의 김두원 교수가 공동 연구한 "Unveiling the Underground Phishing Ecosystem: A 12-Year Longitudinal Study of Deep and Dark Web Forums" 논문이 최우수 국제학술대회인 WWW 2026 ("The ACM Web Conference 2026")에 게재 승인되었습니다. 논문은 2026년 4월에 발표될 예정입니다. 피싱(phishing)은 공격자가 신뢰할 수 있는 합법적 주체로 위장해 민감한 정보를 탈취하는 대표적인 사회공학 기반 위협입니다. 효과적인 대응 전략을 수립하기 위해서는 피싱 생태계에 대한 깊은 이해가 필수적이지만, 기존 연구는 주로 공격 이후에 수집된 데이터에 기반해 분석하는 경우가 많아 공격자의 관점에서 피싱 캠페인이 어떻게 준비·구성되는지에 대한 연구는 상대적으로 제한적이었습니다. 특히 딥 앤 다크 웹(Deep and Dark Web, D2Web)은 공격자가 피싱 키트와 같은 도구를 확보하고, 공격 기술을 교환하며, 탈취된 계정 정보(자격 증명)를 거래하는 핵심 시장이자 지식 공유 플랫폼입니다. 따라서 D2Web 포럼을 분석하면 피싱 공격이 실행되기 이전 단계에서의 공급망을 파악할 수 있어, 새로운 위협과 공격 방식에 대한 선제적 이해를 가능하게 합니다. 이를 위해 2013년부터 2025년까지 13개 D2Web 포럼에서 수집한 총 343,334개의 게시물중 70,055개의 피싱 관련 게시물을 식별해 심층 분석했습니다. 연구팀은 LLM 기반 접근 방식을 활용해 피싱 공격 구성 요소(예: 자격 증명, 피싱 페이지, SMTP 서버)와 주요 타겟 서비스(예: PayPal, Netflix), 구성 요소 제작자 등 핵심 정보를 추출했습니다. 이후 추출 결과를 실증 사례 연구를 통해 도출한 7단계 공격 시나리오 프레임워크에 매핑하여, 구성 요소의 가용성 변화, 타겟 서비스 분포, 게시물 유형의 진화 양상, 연도별 핵심 기여자의 활동 추세를 종단적으로 분석했습니다. 또한 피싱 생태계에서 거래되는 다양한 구성 요소 간 가격 동학을 체계적으로 규명했습니다. 본 연구는 10년 이상에 걸친 피싱 인프라 및 underground 시장의 진화 과정을 공격자 관점에서 거시적으로 분석한 최초의 종단 연구 중 하나로, 피싱 공급망에 대한 심층적 이해를 제공함과 동시에 보다 효과적인 탐지·예방 전략 수립을 위한 중요한 인사이트를 제시합니다. SoftSec Lab (advised by Prof. Sungjae Hwang; https://softsec.skku.edu/) is pleased to announce that the paper “Unveiling the Underground Phishing Ecosystem: A 12-Year Longitudinal Study of Deep and Dark Web Forums,” co-authored by Dohee Kim (Ph.D. student) and Zhao Hui (M.S. student) from SoftSec Lab, and Prof. Doowon Kim from the University of Tennessee, has been accepted to WWW 2026 (The ACM Web Conference 2026), one of the top-tier international conferences in the field. The paper will be presented in April 2026. Phishing is a representative social-engineering threat in which attackers impersonate trusted legitimate entities to steal sensitive information. While a deep understanding of the phishing ecosystem is essential for developing effective defense strategies, much of the existing research relies on post-incident data, leaving the attacker’s perspective—how phishing campaigns are prepared and assembled—relatively underexplored. In particular, the Deep and Dark Web (D2Web) serves as a key marketplace and knowledge-sharing platform where attackers acquire tools such as phishing kits, exchange attack techniques, and trade stolen credentials. Analyzing D2Web forums therefore enables proactive insights into the phishing supply chain at the pre-attack stage, improving our ability to anticipate emerging threats and attack methods. To this end, the research team collected 343,334 posts from 13 D2Web forums spanning 2013 to 2025, identified 70,055 phishing-related posts, and conducted an in-depth analysis. Using an LLM-based approach, the study extracts key information such as phishing components (e.g., credentials, phishing pages, SMTP servers), major target services (e.g., PayPal, Netflix), and component creators. The extracted results are then mapped to a seven-stage attack scenario framework derived from empirical case studies, enabling longitudinal analyses of component availability shifts, target-service distributions, evolving post types, and yearly activity trends of key contributors. The study also systematically investigates the price dynamics among various components traded within the phishing ecosystem. This work is among the first longitudinal studies to provide a macro-level, attacker-centric analysis of the evolution of phishing infrastructure and underground markets over more than a decade. By offering a deeper understanding of the phishing supply chain, it presents valuable insights to support the development of more effective detection and prevention strategies.
-
- 작성일 2026-02-06
- 조회수 3124
-
-
- [연구] main Lab. 연구실 (지도교수: 김재광) The 2026 ACM Web Conference (WWW) Research Track 논문 게재 승인
- main Lab. 연구실 (지도교수: 김재광) 논문이 Top-tier 국제학술대회 The 2026 ACM Web Conference (WWW) Research Track에 게재 승인되었습니다. 논문은 26년 4월 두바이에서 발표될 예정입니다. "FCRLLM: Aligning LLM with Collaborative Filtering for Long-tailed Sequential Recommendation" 논문은 허병문 (인공지능융합학과 박사과정), 이남준 (인공지능융합학과 석사과정), 김선아 (소프트웨어학과 석사과정) 이 저자로 참여하였고 김재광 교수가 교신저자로 참여하였습니다. 이 연구는 상호작용 데이터가 부족한 Long-tailed 사용자 및 아이템에서의 추천 문제를 해결하기 위해, 거대언어모델(LLM)의 풍부한 의미론적(Semantic) 지식과 기존의 협업 필터링 신호를 결합한 FCRLLM 프레임워크를 제안합니다. 핵심 기술인 '플립드 클래스룸(Flipped Classroom)' 메커니즘은 협업 표현과 의미론적(Semantic) 표현이 서로 스승과 제자의 역할을 교차 수행하며 동적으로 정렬(aligned) 되도록 유도합니다. 이 과정에서 홉필드 네트워크 기반의 에너지 함수를 활용하여 두 양식 간의 어텐션 패턴 차이를 최소화하고 상호 보완적인 학습을 가능하게 합니다. 제안 방법은 세 개의 실제 데이터셋을 활용하여 실험하였고, 그 결과 제안 방법이 아이템의 인기나 사용자의 활동 수치와 관계없이 추천 성능을 일관되게 향상시키는 것으로 나타났습니다. 본 연구는 서로 다른 차원의 정보들을 양방향 교사-학생 구조로 통합함으로써 더욱 정교하고 다양한 추천 시스템을 구축할 수 있음을 보여줍니다.
-
- 작성일 2026-01-19
- 조회수 2165
-
- [연구] SecAI 연구실 (지도교수 구형준) FSE '26에 논문 게재 승인
- SecAI 연구실 (지도교수 구형준, https://secai.skku.edu/)의 엄지용 학생 (박사과정)과 김민석 학생 (석사과정), 그리고 스토니 브룩 대학교 Michalis Polychronakis가 공동 연구한 "Fool Me If You Can: On the Robustness of Binary Code Similarity Detection Models against Semantics-preserving Transformations" 논문이 소프트웨어 SE 분야 최우수 학회인 Foundations of Software Engineering 2026 (FSE '26)에 게재 승인되어 2026년 7월에 발표할 예정입니다. 소프트웨어 역공학은 취약점 분석 및 악성코드 탐지 등 보안 분야의 핵심적인 과정이지만, 고도의 전문성을 요구합니다. 하지만 이러한 접근 방식만으로는 기하급수적으로 증가하는 최신 위협에 효과적으로 대응하는 데 한계가 있습니다. 이를 해결하기 위해 최근 인공지능을 활용하여 다양한 측면에서 역공학을 보조할 수 있는 기법을 활발히 제안하고 있으며, 특히 기계어 (assembly language)에서 문맥 정보를 추출하는 모델이 많습니다. 하지만 자연어에서 유사한 문맥으로 변형해서 의미를 전달할 수 있듯이 어셈블리어도 동일한 문맥을 유지하면서 다양한 형태로 변형하는 기법 (semantics-preserving code transformations)이 존재하는데, 이런 기법에 대해 인공지능 모델이 얼마나 강건한지에 대한 심도 있는 분석은 미흡합니다. 본 연구는 대표적인 6개의 인공지능 기반 바이너리 유사도 탐지 모델을 대상으로 8가지 변형 기법이 모델 성능에 미치는 영향을 체계적으로 분석합니다. 또한 모델이 오탐(false positive)과 미탐(false negative)과 같이 잘못된 판단을 유도하는 방식도 소개합니다. 이를 위해 620개의 원본 바이너리로부터 총 9,565개의 변형된 바이너리로 구성된 데이터셋을 구축하여 실험을 수행했습니다. 실험 결과 모델의 아키텍쳐 설계 및 전처리 방식에 따라 변형에 대한 강건성이 상이함을 확인하였으며, 특히 공격자가 변형을 정밀하게 설계할 경우 미세한 변형만으로도 모델 성능이 심각하게 저하될 수 있음을 보였습니다. 본 연구는 향후 리버싱 작업 보조용 인공지능 모델 설계 시, 단순한 성능지표를 넘어 바이너리 변형에 대한 강건성 역시 중요하게 고려해야 함을 강조합니다. Abstract: Binary code analysis plays an essential role in cybersecurity, facilitating reverse engineering to reveal the inner workings of programs in the absence of source code. Traditional approaches, such as static and dynamic analysis, extract valuable insights from stripped binaries, but often demand substantial expertise and manual effort. Recent advances in deep learning have opened promising opportunities to enhance binary analysis by capturing latent features and disclosing underlying code semantics. Despite the growing number of binary analysis models based on machine learning, their robustness to adversarial code transformations at the binary level remains underexplored to date. In this work, we evaluate the robustness of deep learning models for the task of binary code similarity detection (BCSD) under semantics-preserving transformations. The unique nature of machine instructions presents distinct challenges compared to the typical input perturbations found in other domains. To achieve our goal, we introduce asmFooler, a system that evaluates the resilience of BCSD models using a diverse set of adversarial code transformations that preserve functional semantics. We construct a dataset of 9,565 binary variants from 620 baseline samples by applying eight semantics-preserving transformations across six representative BCSD models. Our major findings highlight several key insights: i) model robustness highly relies on the design of the processing pipeline, including code pre-processing, model architecture, and internal feature selection, which collectively determine how code semantics are captured; ii) the effectiveness of adversarial transformations is bounded by a transformation budget, shaped by model-specific constraints such as input size limits and the expressive capacity of semantically equivalent instructions; iii) well-crafted adversarial transformations can be highly effective, even when introducing minimal perturbations; and iv) such transformations efficiently disrupt the model's decision (e.g., misleading to false positives or false negatives) by focusing on semantically significant instructions.
-
- 작성일 2026-01-12
- 조회수 1929







