HTML 및 URL 특징을 이용한 유해사이트 수집 시스템
- 주제(키워드) 디지털 저작권 포렌식 , 유해사이트 탐지 , 크롤링
- 발행기관 고려대학교 대학원
- 지도교수 이상진
- 발행년도 2022
- 학위수여년월 2022. 8
- 학위명 석사
- 학과 및 전공 대학원 정보보안학과
- 세부전공 저작권디지털포렌식
- 세부분야 해당없음
- 원문페이지 36 p
- 파일정보 hwp
- 실제URI http://www.dcollection.net/handler/korea/000000269066
- UCI I804:11009-000000269066
- DOI 10.23186/korea.000000269066.11009.0001377
- 본문언어 한국어
초록/요약
정부는 저작권법에 의해 유해사이트를 차단하고 있으나, 유해사이트는 이를 우회하여 지속적으로 증가하고 있다. 유해사이트 이용 근절을 위해선 유해사이트들을 지속적으로 수집하여 모니터링하고 해당 사이트를 차단하거나 그로부터 얻을 수 있는 추가적인 불법 행위를 식별하는 등의 노력이 필요하다. 본 논문은 지속적인 유해사이트 수집을 위해 유해사이트의 여부를 판별할 수 있는 방법과 해당 방법을 이용해 설계한 유해사이트 수집 시스템을 제시한다. 유해사이트 판별을 위해 총 60개 유해사이트의 html 코드를 수집하고 분석하여 4가지의 특징을 식별했고, 해당 특징을 토대로 유해사이트 수집 시스템을 설계하여 유해사이트를 수집하였다. 수집 결과 98.79%의 정탐율로 743개의 유해사이트를 수집할 수 있었다. 따라서 제안한 유해사이트 수집 시스템이 유해사이트 근절에 도움을 줄 것으로 기대한다.
more목차
제 1 장 서론 1
제 2 장 배경지식 및 관련 연구 3
2.1. 웹 크롤러 (Web Crawler) 3
2.1.1. 웹 크롤러의 분류 3
2.1.2. 웹 크롤러의 구조 3
2.1.3. 웹 크롤러의 요구조건 5
2.2. HTML 메타 태그 (HTML meta tag) 5
2.2.1. keywords 6
2.2.2. description 6
2.2.3. robots 6
2.3. 관련연구 7
제 3 장 유해사이트 특징 9
3.1. 유해사이트의 특징 9
3.1.1. 도메인에 붙는 시퀀스 번호 10
3.1.2. HTML 메타 데이터 10
3.1.3. 하이링크를 포함한 이미지 11
3.1.4. 타이틀에 사용된 키워드 12
3.2. 일반사이트와 유해사이트간의 특징 발현 차이 12
제 4 장 유해사이트 수집 시스템 설계 14
4.1. 화이트리스트 비교 14
4.2.1. SNS 도메인 15
4.2.1. 리소스 도메인 15
4.2.1. 기존 합법 저작물 사이트의 도메인 15
4.2. 유해사이트 판별 16
4.3. 크롤링 큐 17
4.4. 중복 수집된 URL 제거 18
제 5 장 실험 결과 및 분석 19
5.1. 유해사이트 판별 기준 19
5.2. 유해사이트 수집 결과 20
5.3. 유해사이트 수집시스템 탐지 우회 방법 21
4.2.1. 키워드 재구성을 통한 수집시스템 우회 22
4.2.1. 1차 관문사이트를 이용한 수집시스템 우회 22
4.2.1. 인증 세션을 이용한 크롤링 방지 23
제 6 장 결론 및 향후 연구 25
참고문헌 26

