HTML 및 URL 특징을 이용한 유해사이트 수집 시스템
An Harmful site collection system using Characteristic of HTML and URL
- 주제(키워드) digital copyright forensic , harmful site detection , crawling , 디지털 저작권 포렌식 , 유해사이트 탐지 , 크롤링
- 발행기관 한국디지털포렌식학회
- 발행년도 2022
- 총서유형 Journal
- DOI http://dx.doi.org/10.22798/KDFS.2022.16.1.54
- KCI ID ART002830211
- 본문언어 한국어
초록/요약
정부는 저작권법에 의해 유해사이트를 차단하고 있으나, 유해사이트는 이를 우회하여 지속적으로 증가하고 있다. 유해사이트 이용 근절을 위해선 유해사이트들을 지속적으로 수집하여 모니터링하고 해당 사이트를 차단하거나 그로부터 얻을 수 있는 추가적인 불법 행위를 식별하는 등의 노력이 필요하다. 본 논문은 지속적인 유해사이트 수집을 위해 유해사이트의 여부를 판별할 수 있는 방법과 해당 방법을 이용해 설계한 유해사이트 수집 시스템을 제시한다. 유해사이트 판별을 위해 총 60개 유해사이트의 html 코드를 수집하고 분석하여 4가지의 특징을 식별했고, 해당 특징을 토대로 유해사이트 수집 시스템을 설계하여 유해사이트를 수집하였다. 수집 결과 98.79%의 정탐율로 743개의 유해사이트를 수집할 수 있었다. 따라서 제안한 유해사이트 수집 시스템이 유해사이트 근절에 도움을 줄 것으로 기대한다.
more초록/요약
Based on copyright law, goverment has been blocked harmful site. Nevertheless, harmful sites bypass them and continue to increase. For exterminate using harmful site, we need efforts, such as collect them continuously and identifying additional illegal activities that may result from it. For collect harmful site continuously, This paper presents method for determine whether or not a site is harmful and a system for collecting harmful sites designed using the method. we compiled 60 harmful site‘s HTML code sample and analyze them. As a result, We found four characteristics of harmful sites and designed harmful site collection system with founded characteristics. As a result of collecting harmful sites, we were able to collect 743 harmful sites with 98.79% probability of accuracy. Therefore, it is proposed harmful site collection system will be able to help exterminating harmful sites.
more

