검색 상세

디지털 포렌식 조사를 위한 문서 필터 도구 개발

Documents Filter Tool Development for Forensic Investigation

초록/요약

컴퓨터의 사용이 일반화 되면서 많은 양의 문서 파일이 생성되고 있다. 문서 파일은 개인의 기록, 기업 활동 내역 등을 포함하고 있으므로 디지털 포렌식 수사에서 증거능력을 가지는 경우가 있다. 일반적으로 문서 파일은 텍스트를 그대로 저장하지 않고 특정 포맷을 이용하거나 압축하여 저장한다. 따라서 각 문서의 응용프로그램을 이용하여 해당 문서를 열지 않고서는 문서의 내용을 확인하거나 검색하기 어렵다. 이와 같은 이유로 디지털 포렌식 수사 시 획득한 증거에서 문서 파일의 내용을 확인하는 과정에는 많은 시간이 소요된다. 가장 많이 사용되는 MS 오피스, 한글과 컴퓨터 한글, Adobe PDF 문서 파일은 문서의 내부 저장 방법을 이용하여 텍스트 추출이 가능하다. 그리고 추출한 텍스트를 검색하여 필요한 문서를 쉽게 찾을 수 있다. 문서 파일이 비할당 영역에 존재할 경우 파일이 연속적으로 완전하게 존재할 경우 이를 복구하여 텍스트 추출이 가능하다. 파일이 불완전하거나 비연속적으로 존재할 경우에는 일부 문서파일에 한하여 텍스트 추출이 가능하다. 본 논문에서는 앞서 언급한 문서 파일의 텍스트 추출 방안을 제시하고 디지털 포렌식 조사 시 수집한 증거의 문서 파일을 필터링하여 텍스트를 추출하는 도구를 구현한다.

more

목차

목 차

1. 서론 1

2. 디지털 포렌식 조사에서의 문서 파일 3

3. 관련 연구 4

4. 한글, MS 오피스, PDF 텍스트 추출 방안 5
4.1. 한글과 컴퓨터 한글 5
4.1.1. 문서 텍스트 추출 방안 5
4.1.2. 문서 속성 텍스트 추출 방안 10
4.2. MS 오피스 워드 2003 13
4.2.1. 문서 텍스트 추출 방안 13
4.2.2. 문서 속성 텍스트 추출 방안 16
4.3. MS 오피스 엑셀 2003 18
4.3.1. 문서 텍스트 추출 방안 18
4.3.1.1. 셀 표시 형식이 지정되지 않은 문자열 텍스트 추출 19
4.3.1.2. 셀 표시 형식이 지정된 문자열 텍스트 추출 23
4.3.2. 문서 속성 텍스트 추출 방안 25
4.4. MS 오피스 파워포인트 2003 27
4.4.1. 문서 텍스트 추출 방안 27
4.4.2. 문서 속성 텍스트 추출 방안 28
4.5. MS 오피스 워드 2007 29
4.5.1. 문서 텍스트 추출 방안 29
4.5.2. 문서 속성 텍스트 추출 방안 31
4.6. MS 오피스 엑셀 2007 33
4.6.1. 문서 텍스트 추출 방안 33
4.6.1.1. 셀 표시 형식이 지정되지 않은 문자열 텍스트 추출 33
4.6.1.2. 셀 표시 형식이 지정된 문자열 텍스트 추출 34
4.6.2. 문서 속성 텍스트 추출 방안 36
4.7. MS 오피스 파워포인트 2007 37
4.7.1. 문서 텍스트 추출 방안 37
4.7.2. 문서 속성 텍스트 추출 방안 39
4.8. Adobe PDF 40
4.8.1. 문서 텍스트 추출 방안 40
4.8.2. 문서 속성 텍스트 추출 방안 41

5. 문서 텍스트 필터 도구 설계 및 구현 42
5.1. 디스크 할당 영역 문서 텍스트 추출 42
5.2. 디스크 비할당 영역 문서 텍스트 추출 42
5.2.1. 복구 데이터 문서 텍스트 추출 42
5.2.2. 데이터 파편 문서 텍스트 추출 43
5.2.2.1. MS 오피스 2007 데이터 파편 텍스트 추출 43
5.2.2.2. PDF 데이터 파편 텍스트 추출 43
5.2.2.3. 데이터 파편 텍스트 추출 알고리즘 44

6. 결론 46

참고문헌 47

more