[ 분석 절차 ]

1. 분석기획 (Planning)
- 비즈니스 이해 및 범위 설정
- 내부 및 외부 비즈니스 자료를 조사하고 분석 방향을 설정한다.
- 프로젝트 범위를 설정하고 범위 정의서를 작성한다.
- 프로젝트 정의 및 계획수립
- 데이터 분석 프로젝트의 목표를 구체화하고 평가 기준을 설정한다.
- 프로젝트 수행 계획서를 작성하여 목적, 기대 효과, 일정 및 관리 방안을 포함한다.
- 프로젝트 위험 계획 수립
- 데이터 분석 과정에서 발생할 수 있는 위험 요소를 식별하고 대응 계획을 수립한다.
2. 데이터 준비 (Preparing)
- 필요 데이터 정의
- 분석에 필요한 데이터를 정의하고, 데이터를 수집할 구체적인 방안을 마련한다.
- 법적 문제를 고려하여 내부 및 외부 데이터를 수집한다.
- 데이터 스토어 설계
- 정형 데이터: 관계형 데이터베이스(RDBMS)를 활용해 논리적/물리적 설계를 한다.
- 비정형 데이터: 하둡이나 NoSQL을 활용하여 논리적/물리적 스토어를 설계한다.
- 데이터 수집 및 정합성 점검
- ETL 도구, API, 스크립트 등을 활용하여 데이터를 수집하고 저장한다.
- 수집된 데이터의 정합성을 점검하고 품질을 개선하기 위한 보완 작업을 수행한다.
3. 데이터 분석 (Analyzing)
- 분석용 데이터 준비
- 비즈니스 목표에 맞춰 분석에 필요한 데이터 범위를 확인하고,
분석용 데이터 세트를 준비한다.
- 비즈니스 목표에 맞춰 분석에 필요한 데이터 범위를 확인하고,
- 텍스트 분석
- 텍스트 데이터를 추출하여 오피니언 마이닝, 사회 연결망 분석,
텍스트 마이닝 등의 기법으로 모델을 구축한다.
- 텍스트 데이터를 추출하여 오피니언 마이닝, 사회 연결망 분석,
- 탐색적 분석
- 통계량을 산출하여 변수 간의 관계를 분석하고 데이터 특성을 파악한다.
- 데이터 시각화를 통해 분석 결과를 직관적으로 표현한다.
- 모델링
- 과적합을 방지하고 일반화를 위해 데이터를 훈련용, 평가용, 검증용으로 분할한다.
- 분석 목표에 맞는 모델을 설정하고 이를 적용 및 운영하기 위한 방안을 마련한다.
- 모델 평가 및 검증
- 모델 평가 기준에 따라 객관적으로 평가하고, 품질 관리 프로세스를 구축한다.
- 실 적용성을 검토하여 모델의 성능을 검증한다.
4. 시스템 구현 (Developing)
- 설계 및 구현
- 가동 중인 시스템을 분석하고, 알고리즘 설명서를 바탕으로 응용 시스템을 설계한다.
- BI 패키지나 시스템 커스터마이징을 통해 시스템을 구현한다.
- 시스템 테스트 및 운영
- 구현된 시스템을 단위 테스트와 통합 테스트를 통해 검증한다.
- 사용자 교육 및 운영 계획을 수립하여 시스템을 안정적으로 운영한다.
5. 평가 및 전개 (Deploying)
- 모델 발전 계획 수립
- 모델의 지속적인 운영과 기능 향상을 위한 계획을 상세히 수립하여 모델의 계속성을 확보한다.
- 프로젝트 평가 및 보고
- 프로젝트의 정량적/정성적 성과를 평가하고 보고서를 작성하여 의사결정에 반영한다.
- 보고 후 프로젝트를 종료한다.
[ 빅데이터 분석 방법론의 유형 ]

1. KDD (Knowledge Discovery in Databases) 분석 방법론
KDD는 데이터에서 패턴이나 지식을 발견하는 방법론이다. 데이터의 선택, 전처리, 변환, 데이터 마이닝, 결과 평가의 5단계를 통해 통계적 패턴을 찾아낸다.
- 단계:
- 데이터 세트 선택: 목표 데이터 설정 및 구성
- 데이터 전처리: 데이터의 노이즈, 결측값 등을 제거
- 데이터 변환: 데이터 마이닝이 효율적으로 적용되도록 변환
- 데이터 마이닝: 데이터 마이닝 기법을 적용하여 분류 및 예측 수행
- 데이터 마이닝 결과 평가: 분석 결과에 대한 평가 및 활용
2. CRISP-DM (Cross Industry Standard Process for Data Mining) 분석 방법론
CRISP-DM은 단계 간 피드백을 통해 각 단계의 완성도를 높이는 데이터 마이닝 표준 절차다. 비즈니스 이해부터 데이터 준비, 모델링, 평가, 전개까지의 6단계로 구성된다.
- 단계:
- 업무 이해: 현업자와의 커뮤니케이션을 통해 분석 목표를 설정
- 데이터 이해: 데이터를 탐색하고, 숨겨진 인사이트 발견
- 데이터 준비: 분석 가능한 상태로 데이터를 준비
- 모델링: 분석 목표에 맞춰 모델을 설계 및 적용
- 평가: 모델의 성능과 실 적용성을 평가
- 전개: 모델을 실제 환경에 적용
3. SEMMA 분석 방법론
SEMMA는 통계 중심의 5단계 방법론이다. 샘플링, 탐색, 수정, 모델링, 검증의 단계를 거쳐 데이터를 분석하고 모델을 구축하며, 그 성능을 평가한다.
- 단계:
- 샘플링: 분석을 위한 데이터 샘플을 추출
- 탐색: 데이터를 탐색하고 통계적 특성을 분석
- 수정: 데이터 변형 및 정제를 통해 모델링 준비
- 모델링: 신경망, 의사결정나무, 로지스틱 회귀 분석 등을 이용하여 모델을 구축
- 검증: 모델의 성능을 검증하여 분석 결과의 신뢰성을 확보
[ 빅데이터 분석 방법론의 중요성 ]

빅데이터 분석 방법론은 대량의 데이터를 체계적으로 처리하고 분석하여 중요한 통찰을 도출하는 데 필수적이다.
이러한 방법론을 통해 기업은 데이터에서 유의미한 정보를 추출하고 이를 바탕으로 전략적 의사결정을 내릴 수 있다.
특히, 데이터의 복잡성과 양이 지속적으로 증가하는 현대 사회에서, 데이터 기반 의사결정은 경쟁력을 유지하고 성장하기 위한 핵심 요소로 자리 잡고 있다.
- 금융: 신용 리스크 평가, 사기 탐지, 맞춤형 금융 상품 추천
- 의료: 질병 예측 및 개인 맞춤형 치료 제공
- 소매업: 고객 행동 분석, 재고 관리 및 맞춤형 마케팅 캠페인
- 공공부문: 교통 혼잡 예측, 에너지 효율 개선, 범죄 예측
빅데이터 분석 방법론은 데이터를 기반으로 한 정확한 의사결정과 혁신적인 솔루션 도출을 가능하게 하며, 다양한 산업 분야에서 광범위하게 활용되고 있다.
'Post 빅데이터분석' 카테고리의 다른 글
| [빅데이터] 7. 데이터 저장 및 저장기술 (0) | 2024.09.22 |
|---|---|
| [빅데이터] 6. 데이터 수집 / 유형 / 변환 / 품질검증 (0) | 2024.09.21 |
| [빅데이터] 4. 프라이버시 보호 모델 (+예시) (2) | 2024.09.18 |
| [빅데이터] 3. 빅데이터 기술 및 제도 : 하둡 에코시스템 (5) | 2024.09.17 |
| [빅데이터] 2. 빅데이터 도입과 조직 운영 (2) | 2024.09.16 |