
빅데이터에서 개인정보를 보호하기 위해 사용되는 프라이버시 보호 모델로는 4가지가 있다.
k-익명성(k-Anonymity)
l-다양성(l-Diversity)
t-근접성(t-Closeness)
m-유일성(m-Uniqueness)
각각의 모델에 대한 설명과 예시는 다음과 같다.
k-익명성
(k-Anonymity)
▶ 설명:
k-익명성은 데이터 집합에서 각 레코드를 최소 k개의 다른 레코드와 구별할 수 없도록 처리하는 방식이다. 즉, 개인이 특정 레코드에 해당한다는 사실을 파악하지 못하게 하기 위해, 식별 가능한 속성을 제거하거나 변형하여 동일한 특성을 가진 k개의 그룹을 형성하는 방식이다.
▶ 예시:
- 의료 데이터에서 환자의 나이와 성별 같은 정보를 공개할 때, 각 그룹에 최소 5명의 환자가 속하도록 처리해 특정 개인을 구별할 수 없게 함.
- 고용 데이터에서 직무, 연봉 등의 정보가 포함된 데이터를 공개할 때, 각 직무-연봉 조합에 최소 3명이 속하게 함으로써 특정 개인을 식별하지 못하게 처리.
- 거주지 조사 데이터에서 지역과 성별, 연령 정보를 공개할 때, 같은 지역 내에서 같은 성별과 나이대를 가진 사람들이 최소 10명 이상 있게 조정하여 개인정보를 보호함.
예시 1: 의료 데이터
나이/성별/지역/질병
| 30-39 | 남성 | 서울 | 고혈압 |
| 30-39 | 남성 | 서울 | 당뇨병 |
| 30-39 | 남성 | 서울 | 고혈압 |
| 40-49 | 여성 | 부산 | 천식 |
| 40-49 | 여성 | 부산 | 천식 |
| 40-49 | 여성 | 부산 | 당뇨병 |
- k=3: 나이와 성별이 동일한 레코드가 최소 3개 이상 존재하도록 함.
- 결과: "30-39, 남성" 및 "40-49, 여성" 속성값을 가진 레코드들이 각각 3개로 익명화됨.
예시 2: 소득 데이터
연령대/직업/소득
| 30-39 | 개발자 | 4,500만 원 |
| 30-39 | 개발자 | 5,000만 원 |
| 30-39 | 개발자 | 4,700만 원 |
| 40-49 | 기획자 | 6,000만 원 |
| 40-49 | 기획자 | 6,500만 원 |
| 40-49 | 기획자 | 6,200만 원 |
- k=3: 동일한 직업 및 연령대의 소득 정보가 3개씩 존재하여, 개별 소득을 특정하기 어렵게 익명화됨.
예시 3: 거주지 데이터
연령대/지역/주거형태
| 20-29 | 서울 | 아파트 |
| 20-29 | 서울 | 빌라 |
| 20-29 | 서울 | 오피스텔 |
| 30-39 | 부산 | 아파트 |
| 30-39 | 부산 | 빌라 |
| 30-39 | 부산 | 오피스텔 |
- k=3: 지역과 주거형태가 동일한 값이 최소 3개씩 존재함.
l-다양성
(l-Diversity)
▶ 설명:
l-다양성은 k-익명성의 약점을 보완하기 위해 제안된 모델로, k-익명성에서는 동일한 그룹 안의 민감한 정보가 모두 동일할 수 있는 약점이 있다. l-다양성은 그룹 내의 민감한 값이 적어도 l개의 다른 값을 가지도록 요구하여 더 높은 수준의 보호를 제공한다.
▶ 예시:
- 의료 데이터에서 암 진단 정보가 포함된 경우, k-익명성으로는 같은 나이와 성별 그룹의 모든 환자가 같은 암 유형을 가질 수 있다. l-다양성은 그룹 내에 최소한 2~3개의 다른 암 유형을 포함해 특정 암 진단을 예측할 수 없게 한다.
- 금융 데이터에서 신용등급 정보를 포함할 때, 각 익명화된 그룹 내에 최소한 3개의 다른 신용등급을 포함하여 특정한 신용등급을 가진 개인을 파악하기 어렵게 한다.
- 쇼핑 데이터에서 구매한 제품 정보를 공개할 때, 같은 그룹 내의 사람들이 동일한 제품을 구매하지 않도록 최소한 2개의 다른 제품을 포함해 특정 제품을 구매한 사람을 식별할 수 없게 한다.
예시 1: 의료 데이터
나이/성별/지역/질병
| 30-39 | 남성 | 서울 | 고혈압 |
| 30-39 | 남성 | 서울 | 당뇨병 |
| 30-39 | 남성 | 서울 | 천식 |
| 40-49 | 여성 | 부산 | 고혈압 |
| 40-49 | 여성 | 부산 | 천식 |
| 40-49 | 여성 | 부산 | 당뇨병 |
- l=3: 동일한 나이와 성별 그룹 내에서 질병 정보가 최소 3개의 서로 다른 값을 가짐.
예시 2: 금융 데이터
나이/직업/신용등급
| 30-39 | 의사 | A |
| 30-39 | 의사 | B |
| 30-39 | 의사 | C |
| 40-49 | 변호사 | A |
| 40-49 | 변호사 | B |
| 40-49 | 변호사 | C |
- l=3: 동일한 직업 및 연령대의 신용등급이 최소 3개의 서로 다른 값(A, B, C)을 가짐.
예시 3: 쇼핑 데이터
나이/성별/지역/구매 제품
| 30-39 | 남성 | 서울 | TV |
| 30-39 | 남성 | 서울 | 세탁기 |
| 30-39 | 남성 | 서울 | 냉장고 |
| 40-49 | 여성 | 부산 | 냉장고 |
| 40-49 | 여성 | 부산 | TV |
| 40-49 | 여성 | 부산 | 세탁기 |
- l=3: 동일한 나이와 성별 그룹에서 최소 3개의 서로 다른 제품을 구매함.
t-근접성
(t-Closeness)
▶ 설명:
t-근접성은 l-다양성의 한계를 보완하기 위해 제안된 모델로, 그룹 내 민감한 속성의 분포가 전체 데이터의 민감한 속성 분포와 통계적으로 유사하게 유지되도록 한다. 이를 통해 민감한 정보의 분포가 왜곡되지 않으며, 특정 그룹에서 민감한 정보를 유추하기 어려워진다.
▶ 예시:
- 의료 데이터에서 특정 그룹의 암 발생률이 전체 인구의 암 발생률과 큰 차이를 보이지 않도록 하여 특정 그룹의 환자가 암에 걸릴 확률을 유추할 수 없게 함.
- 소득 데이터에서 특정 그룹의 소득 분포가 전체 소득 분포와 유사하도록 하여, 그룹 내에서 특정 소득 수준을 가진 사람들을 식별하기 어렵게 한다.
- 고객 만족도 조사 데이터에서 특정 고객 그룹의 만족도 분포가 전체 고객의 만족도 분포와 유사하게 유지되도록 처리하여 특정 고객의 만족도를 추측할 수 없게 함.
예시 1: 의료 데이터
나이/성별/지역/질병
| 30-39 | 남성 | 서울 | 고혈압 |
| 30-39 | 남성 | 서울 | 당뇨병 |
| 30-39 | 남성 | 서울 | 천식 |
- 전체 분포: 고혈압(40%), 당뇨병(30%), 천식(30%).
- t-근접성: 그룹 내 질병 분포가 전체 데이터의 질병 분포와 유사하게 설정되어 있어 민감한 정보를 유추할 수 없음.
예시 2: 소득 데이터
연령대/직업/소득
| 30-39 | 개발자 | 4,500만 원 |
| 30-39 | 개발자 | 5,000만 원 |
| 30-39 | 개발자 | 4,700만 원 |
- 전체 분포: 소득 4,000만
5,000만 원 구간(40%), 5,000만6,000만 원 구간(30%), 6,000만 원 이상 구간(30%). - t-근접성: 그룹 내 소득 분포가 전체 데이터 분포와 비슷함.
예시 3: 고객 만족도 조사 데이터
연령대/성별/만족도
| 20-29 | 남성 | 5점 |
| 20-29 | 남성 | 4점 |
| 20-29 | 남성 | 5점 |
- 전체 분포: 5점(50%), 4점(30%), 3점(20%).
- t-근접성: 그룹 내 만족도 분포가 전체 분포와 비슷하여 특정 점수를 가진 개인을 예측할 수 없음.
m-유일성
(m-Uniqueness)
▶ 설명:
m-유일성은 특정 레코드가 데이터 집합 내에서 고유하게 구별되지 않도록 보장하는 모델이다. 이는 개인을 식별할 수 있는 정보를 완전히 삭제하거나 변형하여, 개인의 정보가 여러 레코드와 섞이도록 한다.
▶ 예시:
- 소득 데이터에서 특정 연령과 지역을 가진 사람이 데이터 집합 내에서 고유하게 식별되지 않도록 해당 속성들을 변형하여 소득을 기준으로 여러 사람들이 동일한 값을 가지게 만듦.
- 소셜 미디어 데이터에서 사용자의 위치 정보와 게시물 시간대를 공개할 때, 한 명의 사용자가 특정 시간대와 위치를 가진 유일한 사용자가 되지 않도록 여러 사람의 데이터와 섞어 공개함.
- 직장 내 성과 평가 데이터에서 특정 성과 점수를 가진 사람이 회사 내에서 유일하지 않도록 성과 점수 범위를 조정하여 여러 사람이 동일한 점수를 가지게 처리함.
예시 1: 소득 데이터
연령대/지역/소득
| 30-39 | 서울 | 5,000만 원 |
| 30-39 | 서울 | 5,000만 원 |
| 30-39 | 서울 | 5,000만 원 |
- 동일한 소득 값을 가진 레코드가 여러 개 있어, 특정 개인을 구별하기 어려움.
예시 2: 위치 데이터
나이/지역/위치
| 20-29 | 서울 | 강남구 |
| 20-29 | 서울 | 강남구 |
| 20-29 | 서울 | 강남구 |
- 위치 정보가 동일한 여러 레코드가 있어 특정 개인을 식별하기 어려움.
예시 3: 직장 성과 평가 데이터
나이/부서/성과점수
| 30-39 | 개발 | 85 |
| 30-39 | 개발 | 85 |
| 30-39 | 개발 | 85 |
- 동일한 성과 점수를 가진 사람들이 여러 명 있어 특정 개인을 구분하기 어려움.
'Post 빅데이터분석' 카테고리의 다른 글
| [빅데이터] 6. 데이터 수집 / 유형 / 변환 / 품질검증 (0) | 2024.09.21 |
|---|---|
| [빅데이터] 5. 분석방법론의 분석절차와 유형 (0) | 2024.09.20 |
| [빅데이터] 3. 빅데이터 기술 및 제도 : 하둡 에코시스템 (5) | 2024.09.17 |
| [빅데이터] 2. 빅데이터 도입과 조직 운영 (2) | 2024.09.16 |
| [빅데이터] 1. 빅데이터 개념 (4) | 2024.09.16 |