본문 바로가기
Post 빅데이터분석

[빅데이터] 4. 프라이버시 보호 모델 (+예시)

by IT포스트잇 2024. 9. 18.

 

빅데이터에서 개인정보를 보호하기 위해 사용되는 프라이버시 보호 모델로는 4가지가 있다.

k-익명성(k-Anonymity) 
l-다양성(l-Diversity) 
t-근접성(t-Closeness) 
m-유일성(m-Uniqueness)

각각의 모델에 대한 설명과 예시는 다음과 같다.

 



k-익명성
(k-Anonymity)

▶ 설명:
k-익명성은 데이터 집합에서 각 레코드를 최소 k개의 다른 레코드와 구별할 수 없도록 처리하는 방식이다. 즉, 개인이 특정 레코드에 해당한다는 사실을 파악하지 못하게 하기 위해, 식별 가능한 속성을 제거하거나 변형하여 동일한 특성을 가진 k개의 그룹을 형성하는 방식이다.


예시
:

  1. 의료 데이터에서 환자의 나이와 성별 같은 정보를 공개할 때, 각 그룹에 최소 5명의 환자가 속하도록 처리해 특정 개인을 구별할 수 없게 함.
  2. 고용 데이터에서 직무, 연봉 등의 정보가 포함된 데이터를 공개할 때, 각 직무-연봉 조합에 최소 3명이 속하게 함으로써 특정 개인을 식별하지 못하게 처리.
  3. 거주지 조사 데이터에서 지역과 성별, 연령 정보를 공개할 때, 같은 지역 내에서 같은 성별과 나이대를 가진 사람들이 최소 10명 이상 있게 조정하여 개인정보를 보호함.

 

예시 1: 의료 데이터

나이/성별/지역/질병

30-39 남성 서울 고혈압
30-39 남성 서울 당뇨병
30-39 남성 서울 고혈압
40-49 여성 부산 천식
40-49 여성 부산 천식
40-49 여성 부산 당뇨병
  • k=3: 나이와 성별이 동일한 레코드가 최소 3개 이상 존재하도록 함.
  • 결과: "30-39, 남성" 및 "40-49, 여성" 속성값을 가진 레코드들이 각각 3개로 익명화됨.

예시 2: 소득 데이터

연령대/직업/소득

30-39 개발자 4,500만 원
30-39 개발자 5,000만 원
30-39 개발자 4,700만 원
40-49 기획자 6,000만 원
40-49 기획자 6,500만 원
40-49 기획자 6,200만 원
  • k=3: 동일한 직업 및 연령대의 소득 정보가 3개씩 존재하여, 개별 소득을 특정하기 어렵게 익명화됨.

예시 3: 거주지 데이터

연령대/지역/주거형태

20-29 서울 아파트
20-29 서울 빌라
20-29 서울 오피스텔
30-39 부산 아파트
30-39 부산 빌라
30-39 부산 오피스텔
  • k=3: 지역과 주거형태가 동일한 값이 최소 3개씩 존재함.

 



l-다양성
(l-Diversity)

설명:
l-다양성은 k-익명성의 약점을 보완하기 위해 제안된 모델로, k-익명성에서는 동일한 그룹 안의 민감한 정보가 모두 동일할 수 있는 약점이 있다. l-다양성은 그룹 내의 민감한 값이 적어도 l개의 다른 값을 가지도록 요구하여 더 높은 수준의 보호를 제공한다.


예시
:

  1. 의료 데이터에서 암 진단 정보가 포함된 경우, k-익명성으로는 같은 나이와 성별 그룹의 모든 환자가 같은 암 유형을 가질 수 있다. l-다양성은 그룹 내에 최소한 2~3개의 다른 암 유형을 포함해 특정 암 진단을 예측할 수 없게 한다.
  2. 금융 데이터에서 신용등급 정보를 포함할 때, 각 익명화된 그룹 내에 최소한 3개의 다른 신용등급을 포함하여 특정한 신용등급을 가진 개인을 파악하기 어렵게 한다.
  3. 쇼핑 데이터에서 구매한 제품 정보를 공개할 때, 같은 그룹 내의 사람들이 동일한 제품을 구매하지 않도록 최소한 2개의 다른 제품을 포함해 특정 제품을 구매한 사람을 식별할 수 없게 한다.

 

예시 1: 의료 데이터

나이/성별/지역/질병

30-39 남성 서울 고혈압
30-39 남성 서울 당뇨병
30-39 남성 서울 천식
40-49 여성 부산 고혈압
40-49 여성 부산 천식
40-49 여성 부산 당뇨병
  • l=3: 동일한 나이와 성별 그룹 내에서 질병 정보가 최소 3개의 서로 다른 값을 가짐.

예시 2: 금융 데이터

나이/직업/신용등급

30-39 의사 A
30-39 의사 B
30-39 의사 C
40-49 변호사 A
40-49 변호사 B
40-49 변호사 C
  • l=3: 동일한 직업 및 연령대의 신용등급이 최소 3개의 서로 다른 값(A, B, C)을 가짐.

예시 3: 쇼핑 데이터

나이/성별/지역/구매 제품

30-39 남성 서울 TV
30-39 남성 서울 세탁기
30-39 남성 서울 냉장고
40-49 여성 부산 냉장고
40-49 여성 부산 TV
40-49 여성 부산 세탁기
  • l=3: 동일한 나이와 성별 그룹에서 최소 3개의 서로 다른 제품을 구매함.

 



t-근접성
(t-Closeness)

설명:
t-근접성은 l-다양성의 한계를 보완하기 위해 제안된 모델로, 그룹 내 민감한 속성의 분포가 전체 데이터의 민감한 속성 분포와 통계적으로 유사하게 유지되도록 한다. 이를 통해 민감한 정보의 분포가 왜곡되지 않으며, 특정 그룹에서 민감한 정보를 유추하기 어려워진다.


예시
:

  1. 의료 데이터에서 특정 그룹의 암 발생률이 전체 인구의 암 발생률과 큰 차이를 보이지 않도록 하여 특정 그룹의 환자가 암에 걸릴 확률을 유추할 수 없게 함.
  2. 소득 데이터에서 특정 그룹의 소득 분포가 전체 소득 분포와 유사하도록 하여, 그룹 내에서 특정 소득 수준을 가진 사람들을 식별하기 어렵게 한다.
  3. 고객 만족도 조사 데이터에서 특정 고객 그룹의 만족도 분포가 전체 고객의 만족도 분포와 유사하게 유지되도록 처리하여 특정 고객의 만족도를 추측할 수 없게 함.

 

예시 1: 의료 데이터

나이/성별/지역/질병

30-39 남성 서울 고혈압
30-39 남성 서울 당뇨병
30-39 남성 서울 천식
  • 전체 분포: 고혈압(40%), 당뇨병(30%), 천식(30%).
  • t-근접성: 그룹 내 질병 분포가 전체 데이터의 질병 분포와 유사하게 설정되어 있어 민감한 정보를 유추할 수 없음.

예시 2: 소득 데이터

연령대/직업/소득

30-39 개발자 4,500만 원
30-39 개발자 5,000만 원
30-39 개발자 4,700만 원
  • 전체 분포: 소득 4,000만5,000만 원 구간(40%), 5,000만6,000만 원 구간(30%), 6,000만 원 이상 구간(30%).
  • t-근접성: 그룹 내 소득 분포가 전체 데이터 분포와 비슷함.

예시 3: 고객 만족도 조사 데이터

연령대/성별/만족도

20-29 남성 5점
20-29 남성 4점
20-29 남성 5점
  • 전체 분포: 5점(50%), 4점(30%), 3점(20%).
  • t-근접성: 그룹 내 만족도 분포가 전체 분포와 비슷하여 특정 점수를 가진 개인을 예측할 수 없음.

 



m-유일성
(m-Uniqueness)

설명:
m-유일성은 특정 레코드가 데이터 집합 내에서 고유하게 구별되지 않도록 보장하는 모델이다. 이는 개인을 식별할 수 있는 정보를 완전히 삭제하거나 변형하여, 개인의 정보가 여러 레코드와 섞이도록 한다.


예시
:

  1. 소득 데이터에서 특정 연령과 지역을 가진 사람이 데이터 집합 내에서 고유하게 식별되지 않도록 해당 속성들을 변형하여 소득을 기준으로 여러 사람들이 동일한 값을 가지게 만듦.
  2. 소셜 미디어 데이터에서 사용자의 위치 정보와 게시물 시간대를 공개할 때, 한 명의 사용자가 특정 시간대와 위치를 가진 유일한 사용자가 되지 않도록 여러 사람의 데이터와 섞어 공개함.
  3. 직장 내 성과 평가 데이터에서 특정 성과 점수를 가진 사람이 회사 내에서 유일하지 않도록 성과 점수 범위를 조정하여 여러 사람이 동일한 점수를 가지게 처리함.

 

예시 1: 소득 데이터

연령대/지역/소득

30-39 서울 5,000만 원
30-39 서울 5,000만 원
30-39 서울 5,000만 원
  • 동일한 소득 값을 가진 레코드가 여러 개 있어, 특정 개인을 구별하기 어려움.

예시 2: 위치 데이터

나이/지역/위치

20-29 서울 강남구
20-29 서울 강남구
20-29 서울 강남구
  • 위치 정보가 동일한 여러 레코드가 있어 특정 개인을 식별하기 어려움.

예시 3: 직장 성과 평가 데이터

나이/부서/성과점수

30-39 개발 85
30-39 개발 85
30-39 개발 85
  • 동일한 성과 점수를 가진 사람들이 여러 명 있어 특정 개인을 구분하기 어려움.