기업 내부 업무처리 과정에서 수집한 고객정보, 거래내역, 민원처리 내 역 등 개인정보가 포함된 각종 자료를 비식별조치한 후 시장조사, 신상품 및 서비스 개발, 마케팅 전략 수립, 업무 프로세스 개선, 위험관리 등 다 양한 용도로 분석 및 활용 가능하다. 예컨대 A공사는 최근 5년간 톨게이 트 진출입 데이터를 비식별조치한 후 월별·시간대별 차량 평균속도, 상 습 정체구간, 사고구간 및 원인 등 빅데이터 분석을 실시하여 도로구조 개선 및 휴게공간 추가 설치 등 고객서비스 개선에 활용할 수 있다.106)
동형암호를 이용하여 이러한 정보를 클라우드에 모아 전문적인 데이터 분석 기관에서 빅데이터 분석을 하면, 빅데이터 분석 기관에 데이터를 노 출시키지 않고도 비식별화에 따른 데이터 분석 가치 감소를 하지 않은 채 기계학습으로 데이터를 분석하여 분석모델을 개발할 수 있다.
106) 비식별조치 가이드라인, 24쪽
(2) 준비 단계
데이터 제공자는 ① 데이터의 크기, 생성 및 관리 환경 등 데이터의 특성, ② 이용 목적 및 방법, 이용기간, 데이터 접근 가능자 현황 등 활용 에 관한 사항, ③ 비식별조치에 적용할 기법·세부기술 등 비식별조치 현 황 ④ 데이터를 제공하는 방법 및 데이터 보호를 위한 일련의 조치에 대 한 현황 등을 사전에 정리하고 준비하여야 한다.
(3) 비식별처리 단계
(가) 비식별조치 가이드라인의 규정
정보집합물에 포함된 이름, 주민등록번호 등 ‘식별자(Identifier)’는 원 칙적으로 삭제 조치한다. 다만, 데이터 이용 목적상 반드시 필요한 식별자 는 비식별조치 후 활용한다. 정보집합물에 포함된 ‘속성자(Attribute
value)’도 데이터 이용 목적과 관련이 없는 경우에는 원칙적으로 삭제한
다. 데이터 이용 목적과 관련이 있는 속성자 중 식별요소가 있는 경우에 는 데이터 이용 목적과 기법별 장·단점 등을 고려하여 가명처리, 총계처 리 등의 적절한 기법·세부기술 기법을 활용하여 비식별조치한다.
(나) 기존의 기법, 동형암호 처리 병행
주민등록번호, 이름, 전화번호 등 직접적으로 개인을 식별할 수 있는 식별자는 노출될 경우 개인정보 주체를 특정할 수 있게 된다. 직접 식별 자가 노출될 경우 연구 목적이 아닌 1:1 마케팅의 목적으로 악용될 우려 도 높다. 무엇보다도 주민등록번호, 여권번호, 운전면허번호, 외국인등록번 호, 신용카드번호, 계좌번호, 바이오정보 등은 의무적으로 안전한 알고리 듬으로 암호화해서 보관해야 한다.(개인정보보호법 제24조의2 제2항, 개인 정보의 기술적·관리적 보호조치 기준 제6조 제2항)
또한 일반적으로 직접 식별자는 연구 목표 달성을 위해 필요한 정보가 아니라 레코드를 구별하는 정도의 의미만 가진다. 따라서 이에 대해 비식 별처리를 하더라도 데이터 분석 시 유용성 감소는 거의 없다. 레코드 구
별이 필요한 경우라면 비식별처리 중 가명처리가 적절해 보인다. 동형암호 는 평문 연산에 비해 암호문 연산의 효율성이 떨어진다는 단점이 있으므로, 모든 데이터를 동형암호화할 경우 계산 속도가 저하될 우려도 있다. 따라 서 직접 식별자, 연구목적을 위해 불필요한 데이터는 삭제하는 것이 좋다. 동형암호처리 전에 어떠한 레코드를 어떠한 방식으로 비식별처리 할지 는 동형암호를 이용한 빅데이터 분석의 전과정에서 데이터 보호 및 분석 가치 유지에 영향을 미치는 매우 중요한 문제이다. 데이터 분석 목적, 레 코드의 분석 가치, 노출시 재식별 가능성 등을 종합적으로 고려해서 정해 야 할 것이다.
데이터 제공자는 데이터 삭제, 대체 등으로 비식별처리 후 공개키로 데이터를 동형암호화 하고, 비밀키를 가지고 있는다.
(3) 적절성 평가 단계
(가) 비식별조치 가이드라인 규정
평가단은 개인정보처리자가 작성한 기초자료와 k-익명성 모델을 활용 하여 비식별조치 수준의 적정성을 평가한다. 평가단에서 ‘재식별 시도 가 능성’, ‘재식별시 영향’, ‘계량 분석’ 결과와 데이터 이용 목적 등을 종합적 으로 평가하여 기준값(k-익명성 값)을 결정한다. ‘재식별 시도 가능성’은 데이터를 이용, 제공받는 자의 재식별 의도와 능력, 개인정보보호 수준 등 재식별 시도 가능성 분석이다. ‘재식별시 영향 분석’은 데이터가 의도적 또는 비의도적으로 재식별될 경우 정보주체 등에게 미칠 수 있는 영향 분 석이다. 계량 분석은 개인정보처리자가 제출한 k값의 정확성 여부 검증이다.
(나) 적정설 평가 간소화
어느 정도까지 데이터를 변형시켜야 재식별의 위험성이 없는 것으로 보는지에 대한 객관적 기준을 정하는 것은 사실상 불가능하다. 기준값을 결정하고 재식별가능성을 평가하는 것은 복잡하고 자의적으로 결정될 우 려도 있다. 동형암호로 비식별처리하는 경우에는 데이터 분석의 결과 외
에는 외부로 유출되는 정보가 없다. 데이터를 변형할 필요가 없어 데이터 분석의 정확성을 높일 수 있다. 또한 정보관리자의 비식별처리, 처리 위 탁, 제3의 기관에 제공 과정에서 발생할 수 있는 다른 정보와 결합을 통 한 재식별의 위험에 대한 평가도 매우 간소화될 수 있다.
(4) 사후 관리 단계
(가) 비식별조치 가이드라인 규정
비식별조치된 정보가 유출되는 경우 다른 정보와 결합하여 식별될 우 려가 있으므로 필수적인 보호조치를 이행하여야 한다. 관리적 보호조치로 서 비식별 정보파일에 대한 관리 담당자 지정, 원본정보 관리부서와 비식 별 정보 관리부서 간 비식별조치 관련 정보공유 금지, 이용 목적 달성시 파기 등의 조치가 필요하다. 기술적 보호조치로서 비식별 정보파일에 대 한 접근통제, 접속기록 관리, 악성코드 방지 등을 위한 보안 프로그램 설 치·운영 등의 조치가 필요하다.
비식별 정보를 이용하거나 제3자에게 제공하려는 사업자 등은 해당 정 보의 재식별 가능성을 정기적으로 모니터링을 해야 한다. 모니터링 결과, 비식별조치된 정보와 연계하여 재식별 우려가 있는 추가적인 정보를 수집 하였거나 제공받은 경우 등에는 추가적인 비식별조치를 강구하여야 한다. 비식별된 정보를 제3의 기관에 제공하거나, 처리 위탁하는 경우 다른 정 보와 결합을 통해 재식별 시도가 금지됨을 명시하는 등 재식별 위험관리 에 관한 내용을 계약서에 포함하여야 한다.
(나) 동형기계학습, 기술적·관리적 보호조치
클라우드 분석서비스 제공자는 동형 암호화된 상태로 데이터 저장하 고, 암호화된 상태로 데이터를 분석한다. 동형기계학습의 훈련단계에서 동 형 암호화된 대량의 데이터를 입력으로 받아 예측모형을 도출한다. 분석 서비스 제공자는 비밀키를 가지고 있지 아니하므로 동형암호화된 데이터 의 내용을 알 수 없다. 기계학습의 학습데이터와 테스트데이터가 암호화 되어 입력되고 결과는 암호화된 상태에서 계산되며 중간에 어떤 과정에서
도 복호화가 일어나지 않으므로 기계학습을 수행하는 기계는 복호화키를 가질 필요가 없다.107)
클라우드 분석서비스 제공자는 의뢰자에게 암호화된 모델을 반환하고, 의뢰자는 비밀키로 모델을 복호화한다. 이때 동형암호처리가 가명처리에 해당한다고 가정하면, 비밀키로 모델을 복호화하는 것은 추가정보에 해당 하는 비밀키를 분리해서 보관·관리해야 한다는 법규정에 위반되는 것이 아닌지 의문이 들 수 있다. 개인정보처리자는 가명정보를 처리하거나 정 보집합물의 결합을 수행한 경우에는 원상태로 복원하기 위한 추가 정보를 별도로 분리하여 보관·관리해야 하기 때문이다. 그러나 이 과정은 동형 기계학습을 통해 얻어진 모델을 비밀키로 복호화 하는 것에 불과하고 원 상태로(동형암호처리 전의 개인정보로) 복원하는 것이 아니기 때문에 허 용된다고 할 것이다.
동형기계학습으로 얻어진 모델을 복호화 하였을 때 그 결과값에 개인 을 식별할 수 있는 정보가 노출되어서는 아니되도록 설계되어야 한다. 비 식별정보 파일, 키관리 담당자를 지정하여야 한다. 데이터원본 관리부서 와 동형암화 정보 관리 부서 간 비밀키 공유 등 정보 공유를 금지하도록 해야 한다. 이용 목적 달성시 파기 등의 조치가 필요하다.
또한 기술적 보호조치로서 동형암호처리 정보파일 등에 대한 접근통 제, 접속기록 관리, 악성코드 방지 등을 위한 보안 프로그램 설치·운영 등 의 조치가 필요하다. 데이터 제공자가 클라우드서비스 제공자에게 파일을 넘길 때에는 다른 정보와 결합을 통해 재식별 시도가 금지됨을 명시하는 등 재식별 위험관리에 관한 내용을 계약서에 포함하여야 한다.
3. 동형암호 처리한 정보집합물의 결합