데이터 익명화를 위한 파이프라인
꼭꼭 숨겨라 개인 정보 보일라!
데이터 속에는 유용하면서도 의미 있는 정보가 넘쳐나지만, 사용에 앞서 개인 정보 보호가 선행되어야 한다. 이 책은 데이터를 안전하게 보호하고 익명화 프로세스를 구축하는 과정을 설명한다. 안전한 익명화 프로세스를 구축하기 위해 데이터의 흐름을 이해하고 그 과정을 분석 탐구한다. 또한 다루기 까다로운 의료 데이터를 기반으로 실제 비즈니스 요구사항을 해결하는 사용 사례를 학습하고, 각종 장치와 IoT가 수집한 데이터를 다루는 익명화 솔루션을 처음부터 끝까지 살펴본다.
Eastern Ontario Research Institute의 아동병원 선임 과학자이자 종합적인 전자 건강 정보연구소 소장으로 합성 데이터 생성 방법과 도구에 대한 응용 학술 연구를 수행하고 재식별 위험성을 측정한다. 또 오타와 대학교 의과대학 교수로 재직 중이다.
칼리드는 의료산업에서 인공지능과 머신러닝(Artificial Intelligence and Machine Learning, AIML)의 응용을 추진하기 위해 합성 데이터 개발에 주력하는 Replica Analytics의 공동 설립자다. 동시에 데이터 보호 기술을 개발하고 의료 서비스를 제공하며 신약 발명을 지원하는 분석 도구를 구축하는 기술 회사의 이사회에서 투자, 자문, 이사를 겸임하고 있다.
1장 시작하기
_1.1 식별 가능성
_1.2 용어
_1.3 데이터 보호로서의 익명화
_1.4 실제 익명화
_1.5 마치며
2장 식별 가능성 스펙트럼
_2.1 법적 상황
_2.2 노출 위험
_2.3 재식별 과학
_2.4 전반적인 식별 가능성
_2.5 마치며
3장 실제적인 위험 관리 프레임워크
_3.1 익명화의 파이브 세이프
_3.2 파이브 세이프 연습
_3.3 마치며
4장 식별된 데이터
_4.1 요구 사항 수집
_4.2 1차 용도에서 2차 용도로
_4.3 마치며
5장 가명화된 데이터
_5.1 데이터 보호 및 법적 권한
_5.2 익명화의 첫 단계
_5.3 1차 용도에서 2차 용도로 재검토
_5.4 마치며
6장 익명화된 데이터
_6.1 식별 가능성 스펙트럼 재검토
_6.2 소스에서 익명 처리
_6.3 익명 데이터 풀링
_6.4 공급 소스 익명화
_6.5 마치며
7장 안전한 사용
_7.1 신뢰 기반
_7.2 알고리즘에 대한 신뢰
_7.3 책임 있는 AIML의 원칙
_7.4 거버넌스 및 감독
_7.5 마치며