[연구] 김형식 교수 연구실 (보안공학연구실, SecLab), The Web Conference (WWW) 2024 논문 게재 승인
- 소프트웨어융합대학
- 조회수4847
- 2024-03-07
김형식 교수 연구실 (보안공학연구실, SecLab), The Web Conference (WWW) 2024 논문 게재 승인
보안공학 연구실 (지도교수: 김형식, https://seclab.skku.edu)의 이기호(석사과정), 임채진(석사과정), 진범진(박사과정), 김태영(박사과정) 학생과 김형식 교수가 진행한 "AdFlush: A Real-World Deployable Machine Learning Solution for Effective Advertisement and Web Tracker Prevention" 논문이 웹/데이터 마이닝 분야 최우수 학회 The Web Conference (WWW) 2024 (https://www2024.thewebconf.org)에 게재 승인되었습니다.
사용자의 웹 프라이버시를 지키기 위해 광고 및 개인정보 추적기를 방지하는데에 기존의 탐지 및 차단 시스템은 실제 세계에서 빈번히 발생하는 변조 공격에 취약한 모습을 보입니다. 이를 효과적으로 방어하고 일반화하기 위해 머신 러닝 기법을 활용하여 탐지 성능을 끌어올리고 있으나, 현실적으로 실시간 탐지에는 아직 한계점이 분명합니다. 본 논문은 이러한 문제점을 제시하고, 실제 웹 브라우저 환경에서 실시간 탐지를 통하여 사용자의 개인정보를 지킬 수 있도록 경량화된 프레임 워크를 제안하였습니다. 이를 위해 사용량이 가장 많은 상위 10,000개의 웹 사이트에서 발생한 830,160개의 웹 요청에서 기존 연구에서 다룬 3,323개의 피쳐를 추출하고, 변조 공격에 대한 강건성을 추가하기 위해 533개의 피쳐를 추가했습니다. 해당 데이터셋에 대하여 면밀한 피쳐 공학을 통해 경량화되면서 성능을 발전시킨 모델을 Chrome 확장 프로그램에 탑재하여 실시간 탐지가 가능한 프레임 워크를 개발하였습니다. 일반적인 탐지 성능과 변조 공격에 대한 강건성 모두 최신 연구 기법 (AdGraph, WebGraph, WTAGraph)을 상회하였으며, 6개월 동안 진행한 longitudinal 성능 분석에서도 F1 score 0.97점 이상을 기록하여 장기간 재학습 없이도 효과적인 탐지 성능을 선보였습니다.
Abstract - Conventional ad blocking and tracking prevention tools often fall short in addressing web content manipulation. Machine learning approaches have been proposed to enhance detection accuracy, yet aspects of practical deployment have frequently been overlooked. This paper introduces AdFlush, a novel machine learning model for real-world browsers. To develop AdFlush, we evaluated the effectiveness of 883 features, ultimately selecting 27 key features for optimal performance. We tested AdFlush on a dataset of 10,000 real-world websites, achieving an F1 score of 0.98, thereby outperforming AdGraph (F1 score: 0.93), WebGraph (F1 score: 0.90), and WTAgraph (F1 score: 0.84). Additionally, AdFlush significantly reduces computational overhead, requiring 56% less CPU and 80% less memory than AdGraph. We also assessed AdFlush’s robustness against adversarial manipulations, demonstrating superior resilience with F1 scores ranging from 0.89 to 0.98, surpassing the performance of AdGraph and WebGraph, which recorded F1 scores between 0.81 and 0.87. A six-month longitudinal study confirmed that AdFlush maintains a high F1 score above 0.97 without the need for retraining, underscoring its effectiveness.