[빅데이터] 6. 데이터 수집 / 유형 / 변환 / 품질검증

빅데이터에서

데이터 수집은 다양한 소스에서 데이터를 모으는 과정으로, 내부와 외부 데이터를 포함하며 분석의 기초가 된다.

데이터 유형은 정형, 반정형, 비정형으로 나뉘며, 저장 방식과 시간성에 따라 다르게 관리된다.

변환은 수집된 데이터를 분석 가능한 형식으로 가공하는 과정으로, 평활화, 정규화 등의 기술을 활용한다.

품질 검증은 데이터의 정확성, 완전성, 일관성을 확보하여 분석의 신뢰성을 보장하는 중요한 절차이다.

이 모든 과정이 빅데이터 분석의 신뢰성과 효율성을 높이게 된다.

[ 1. 데이터 수집 ]

- 내부 데이터: 조직 내부에 위치한 데이터로, 협의를 통해 수집하며 주로 정형 데이터가 포함된다.
- 외부 데이터: 조직 외부에 위치한 데이터로, 특정 기관이나 업체를 통해 수집하며 주로 비정형 데이터가 포함된다.

▶ ETL (Extract Transform Load)

ETL은 이터 웨어하우스(DW)나 데이터 마트(DM)로 데이터를 이동시키기 위한 과정이다. 다양한 소스 시스템으로부터 데이터를 추출, 변환, 적재하는 작업 기술을 의미한다.

추출: 데이터베이스로부터 데이터를 추출
변환: 적절한 포맷과 구조로 변환하여 저장
적재: 최종 대상(DW 또는 DM)에 데이터를 저장

▶ FTP (File Transfer Protocol)

FTP는 TCP/IP 프로토콜 기반으로 서버와 클라이언트 사이에서 파일을 전송하는 프로토콜이다.

Active FTP: 클라이언트가 수신받을 포트를 서버에 전달
Passive FTP: 서버가 송신받을 포트를 클라이언트에 임의로 전달

▶ Sqoop

관계형 데이터베이스 시스템(RDBMS)에서 하둡 파일 시스템(HDFS)으로 데이터를 수집하거나 보내는 기술이다.

커넥터를 통해 이루어진다.

벌크 Import 지원
데이터 전송 병렬화
직접 입력 제공 (매핑)
데이터 인터랙션 (자바 클래스 생성을 통한 상호작용)

▶ Scrapy

파이썬 기반의 비정형 데이터 수집 기술.

▶ Apache Kafka

대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼.

▶ Flume

많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위한 이벤트 기반 기술.

풀 방식으로 부하 감소 및 고성능 제공
고가용성 지원

▶ Scribe

다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하고 저장하는 대용량 실시간 수집 기술. 단일 중앙 서버와 다수의 로컬 서버로 구성되어 확장성 제공.

▶ Chukwa

분산된 서버에서 에이전트를 실행해 데이터를 수집하고, 하둡 파일 시스템에 저장한 뒤 실시간 분석을 수행하는 기술.

[ 2. 데이터 유형 ]

구조 관점
- 정형
- 반정형: 형식이 있으나 값이 일관적이지 않은 데이터 (HTML, JSON, XML 등)
- 비정형
시간 관점
- 실시간
- 비실시간
저장 형태
- 파일: 시스템 로그, 텍스트, 스프레드시트 등
- 데이터베이스: RDBMS, NoSQL 등 표 형식 데이터
- 콘텐츠: 이미지, 오디오, 비디오 등
- 스트림: HTTP, 센서, 알람 등 실시간 전송 데이터

[ 3. 데이터 변환 기술 ]

평활화: 노이즈 제거, 구간화, 군집화 기법
집계: 여러 표본을 하나의 표본으로 요약
정규화: 특정 구간으로 데이터를 변환하는 척도법
표준화: 값의 범위를 평균 0, 분산 1로 변환하는 척도법
속성 생성: 대표할 수 있는 속성으로 데이터 통합

[ 4. 데이터 비식별화 ]

개인을 식별할 수 없도록 개인정보를 변환하는 방법.

식별 가능한 정보: 이름, 생년월일, 주민등록번호, 계좌번호 등
결합 시 식별 가능한 정보: 신체 특성, 신용 특성, 경력, 위치 등

비식별화 처리 기법

가명처리: 다른 값으로 대체
총계처리: 통계적 수치를 적용
데이터값 삭제: 특정 정보 삭제
범주화: 그룹의 대표 값으로 변환
데이터 마스킹: 공백이나 노이즈 삽입

[ 5. 재현 데이터 ]

실제 데이터에서 통계적 방법이나 기계 학습을 통해 생성된 모의 데이터.

완전 재현 데이터: 모든 원본을 재현 데이터로 변환
부분 재현 데이터: 민감한 정보만 재현 데이터로 변환
복합 재현 데이터: 일부 변수의 값을 재현 데이터로 변환한 뒤, 다른 변수 값을 도출

> 처리 기법

가명처리, 일반화, 섭동(확률적 정보), 치환(무작위 순서 변경)

[ 6. 데이터 품질 검증 ]

데이터 품질 특성
- 정확성
- 완전성
- 적시성
- 일관성
데이터 품질 진단의 종류
- 값 진단: 오류 내역 및 원인 분석
- 구조 진단: 데이터 모델링 관점에서 표준화 수준 진단
- 관리 프로세스 진단: 정형/비정형 데이터 관리 프로세스 분석
데이터 품질 기준
- 정형 데이터: 완전성, 유일성, 유효성, 일관성, 정확성
- 비정형 데이터: 기능성, 신뢰성, 사용성, 효율성, 이식성

변환 후 품질 검증 프로세스

메타데이터 기반 검증: 메타데이터는 데이터를 설명하는 구조화된 데이터
정규 표현식 기반 검증: 특정 규칙을 가진 문자열 집합을 표현하는 형식 언어
데이터 프로파일링 기반 검증: 데이터 현황 분석을 통해 잠재적 오류 징후 발견

데이터 저장, 연계, 가공, 활용에서 오류를 사전에 파악 가능
표준 도메인에 맞는지 검증 가능
품질 검증 기준: 복잡성, 완전성, 유용성, 일관성, 타당성, 정확성

'Post 빅데이터분석' 카테고리의 다른 글

[빅데이터] 8. 데이터 전처리 & 텍스트 전처리 (0)	2024.09.23
[빅데이터] 7. 데이터 저장 및 저장기술 (0)	2024.09.22
[빅데이터] 5. 분석방법론의 분석절차와 유형 (0)	2024.09.20
[빅데이터] 4. 프라이버시 보호 모델 (+예시) (2)	2024.09.18
[빅데이터] 3. 빅데이터 기술 및 제도 : 하둡 에코시스템 (5)	2024.09.17

Post_IT

[빅데이터] 6. 데이터 수집 / 유형 / 변환 / 품질검증

[ 1. 데이터 수집 ]

▶ ETL (Extract Transform Load)

▶ FTP (File Transfer Protocol)

▶ Sqoop

▶ Scrapy

▶ Apache Kafka

▶ Flume

▶ Scribe

▶ Chukwa

[ 2. 데이터 유형 ]

[ 3. 데이터 변환 기술 ]

[ 4. 데이터 비식별화 ]

[ 5. 재현 데이터 ]

[ 6. 데이터 품질 검증 ]

변환 후 품질 검증 프로세스

'Post 빅데이터분석' 카테고리의 다른 글

티스토리툴바

[빅데이터] 6. 데이터 수집 / 유형 / 변환 / 품질검증

[ 1. 데이터 수집 ]

▶ ETL (Extract Transform Load)

▶ FTP (File Transfer Protocol)

▶ Sqoop

▶ Scrapy

▶ Apache Kafka

▶ Flume

▶ Scribe

▶ Chukwa

[ 2. 데이터 유형 ]

[ 3. 데이터 변환 기술 ]

[ 4. 데이터 비식별화 ]

[ 5. 재현 데이터 ]

[ 6. 데이터 품질 검증 ]

변환 후 품질 검증 프로세스

'Post 빅데이터분석' 카테고리의 다른 글

관련글

티스토리툴바