이번에 리뷰 해볼 논문은 한국정보보호학회2018년에 투고된 MS 워드의 RSID 분석을 통한 문서파일 이력 추적 기법 연구 라는 논문이다.

논문 원문은 아래의 주소에서 확인해 볼 수 있다. URL : https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002423553

<aside> 3️⃣ MS Word 문서파일 생성시 RSID(Revision Identifier)도 같이 생성 되는데 RSID가 문서의 내용을 생성/수정/삭제 를 진행 했을 때 생성되는 고유한 값이기 때문이 해당 값을 가지고 문서의 표절 및 파일 내용의 작성 순서를 확인해 볼 수 있다.

</aside>

Abstract

Microsoft Office를 활용한 전자 문서 파일은 계약서 위조, 영업 기밀 유출 등과 같이 법정 분쟁에서 주요 쟁점이다. MS Word 2007 이전에는 OLE 파일 구조를 이용해서 파일을 관리 했지만, MS Word 2007 이후에는 OLE 파일 구조 → OOXML(Office Open XML) 포맷으로 개편되었고, 파일 내부 메타데이터에 RSID(Revision Identifier)값이 저장 되어 있다. RSID는 문서의 내용을 생성/수정/삭제 후 저장할때마다 단어/문장/문단에 부여되는 고유 값이다.

내용 추가/수정/삭제 이력, 작성 순서, 사용된 문서 어플리케이션등의 문서 이력을 추정해 볼 수 있다. 본 논문에서는 사용자 행위에 따른 RSID의 변경 사항으로 원본과 사별을 구별하고 문서파일 유출 행위를 조사 하는 방법론을 제시한다.

Keywords

Revision Identifier, Document forensics, OOXML, MS Word

I. Introduction

종이 문서와 달리 전자 문서는 쉽게 수정, 복사가 가능하기 때문에 문서 유출, 저작권 침해, 표절, 계약서위조 등 다양한 부정행위가 발생 한다.

원본과 사본을 구분하는 대표적인 선행 연구로 속성 정보를 비교하는 방법을 제시했었다. 하지만 속성 정보 변조 방법은 알려져 있기 때문에 쉽게 변조가 가능하다.

본 논문에서는 RSID(Revision Identifier)를 이용해서 시간값, 수정 횟수, 수정시간 등을 변조하는 안티포렌식 행위 여부를 확인해 볼 수 있다.

RSID(Revision Identifier)란?

문서파일 내부의 고유한 값으로 다른 속성정보를 이용하지 않아도 문서 자체, 혹은 문서내 일부 내용 복사 여부를 확인해 볼 수 있으며, 파일 작성 순서 및 이력을 확인해 볼 수 있다

파일 작성 이력은 문서파일을 작성할때 사용한 문서 편집 프로그램, 작성된 내용의 출처(다른 MS 문서 또는 다른 프로그램에서 복사 및 직접 작성)를 확인해 볼 수 있다.

RSID값만을 가지고 관련된 문서파일을 빠르게 찾을 수 있으며, 문서를 열람하지 않아도 되기 때문에 개인정보 보호가 가능하다.

또한 리눅스 문서 편집기인 LibreOffice에서도 MS Word 와 비슷한 방식으로 RSID값이 생성되기 때문에 복사 여부 및 문서파일의 이력을 확인해 볼 수 있다.

II. 기존의 연구와 배경 지식

본 논문에서 이야기 하는 RSID 값을 포함하는 OOXML 구조는 아래와 같은 구조를 가지고 있다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/71ae1ba1-7b91-49dd-ba22-4b33c4b7e468/Untitled.png

docProps 폴더 하위에 존재하는 core.xmlapp.xml 파일은 파일의 작성시간, 수정시간, 작성자, 수정횟수 등의 메타 데이터가 담겨져 있다. word 폴더 하위에 존재 하는 document.xmlsettings.xml 파일은 다양한 RSID 값이 존재 한다.