본문 바로가기
컴퓨터공학부

빅데이터 분석 실무 ① 데이터의 특징, 빅데이터 기술과 플랫폼, 빅데이터 제도

by hey-min-eee 2024. 9. 12.

수업을 통해 얻을 수 있는 자격 : ADsP(국가공인 데이터 분석 준전문가), 빅데이터 분석 기사, ADP

1. 빅데이터 개요 및 활용

(1) 데이터의 특징

- 데이터의 존재적 특성 : 객관적으로 존재하는 사실

- 데이터의 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거

- DIKW 피라미드 : Data > Information > Knowledge > Wisdom

(2) 데이터베이스

- 데이터 베이스 특징 : 통합된(중복 없는), 저장된, 공용, 변화하는 데이터

- 정보의 축정 및 전달 측면 특징 : 기계 가독성, 검색 가능성, 원격 조작성

- In-House DB : 내부 데이터

- OLTP(Online Transaction Processing) : 자동화 중심 시스템

- OLAP(Online Analyiacal Processing) : 분석 중심 시스템

- CRM(Customer Relationship Management), SCM(Supply Chain Management) : 고객 관계 관리, 공급망 관리

- OLTP 특징 : 현재 데이터, 동적으로 순간적 처리

- OLAP 특징 : 가공된 데이터, 정적으로 주기적 처리

- EAI(Enterprise Application Integration) : 서비스 간 연계가 필요한 경우, 연결 루트 간소화를 위해 App을 통합하여 운영

- KMS(Knowledge Management System) : 지식 경영 시스템, 기업이 보유하고 있는 지식을 통합하여 문제 해결 능력 향상

- SCM(Supply Chain Management) : 유통 단계를 최적화하는 공급망 관리

- ERP(Enterprise Resorce Planning) : 기업 경영 자원 통합 관리

- CRM(Customer Relationship Management) : 고객 관계 관리

- RTE(Real Time Enterprise) : 업무 프로세스에서 발생하는 정보 실시간 통합 전달

- LBS(Location Based System) : 공간 정보 관리하는 시스템

- 데이터베이스의 종류 : 계층형, 네트워크형, 분산형, 객체지향형

- RDB(Relationship Database) : 관계형 데이터 베이스, 엑셀 형식의 데이터 베이스, 하나의 열은 하나의 속성을 표현

- 데이터베이스의 구성 요소 : 인스턴트, 엔티티, 메타데이터, 인덱스

(3) 빅데이터란?

- 큰 용량과 복잡성으로 기존 어플이나 Tool로는 다루기 어려운 데이터 집합

- 빅데이터 특징 5V : Volume, Variety, Velocity(속도), Value, Veracity(신뢰성)

- 데이터 산정의 어려움 : 데이터 활용 방식, 가치 창출 방식, 분석기술의 발전

- 빅데이터 활용에 필요한 3요소 : 데이터, 기술, 인력

- 위기 요인 : 사생활 침해, 책임 원칙 훼손, 데이터 오용

(4) 빅데이터 조직

- 데이터 과제 발굴, 기술 검토, 전사 업무 적용 계획, 데이터 분석, 데이터 활용

- DA(Data Architecter) : 데이터 기반으로 IT 정책, 표준화, 구조, 설계 및 이행하는 직무 

- 데이터 과학자 : 데이터 이해, 처리, 가치 추출, 시각화, 전달하는 사람

(5) 데이터 분석 성숙도 및 수준 진단

- 경쟁력 강화를 위해 데이터 분석 도입 여부와 활영 여부에 대한 분석 수준 점검이 필요

- 분석 업무 파악 > 분석 인력 및 조직 > 분석 기법 > 분석 데이터 > 분석 문화

- 성숙도 진단 모델 : CMMI(Capability Maturity Model Integration) 

2. 빅데이터 기술과 플랫폼

- 빅데이터 라이프 사이클 : 원천 데이터 > 데이터 수집(Open API, Crawing) > 데이터 저장 > 데이터 처리/관리 > 데이터 분석 > 데이터 시각화

- 데이터 플랫폼 : 데이터의 수집, 저장, 처리, 관리, 분석을 지원하는 새로운 인사이트와 비즈니스 가치를 창출하는 빅테이터 프로세스 환경

- 빅데이터 관리 플랫폼 : 데이터 수집, 저장, 처리, 관리 소프트웨어

- 빅데이터 분석 플랫폼 : 머신러닝 등 분석 기술

- 하둡(Hadoop) : 빅데이터 관리 플랫폼 중 하나로 고가용성 분산형 객체 지향적 플랫폼, 오픈 자바 소프트웨어 프레임 워크

- 하둡의 특징 : HDFS을 통한 분산 저장과 맵리듀스를 통한 분산 처리, 실시간 데이터 처리 어려움

- 하둡의 데이터 저장 프로세스 :  데이터 > 맵리듀스(데이터 분산 처리) > HDFS(데이터 분산 저장) > YARN(분산 저장 클러스터 관리)

3. 빅데이터 제도

- 마이데이터 : 정보의 주체가 개인정보 권한을 갖고 관리하는 것

- 개인 정보 보호법, 정보 통신망법, 신용 정보법

- 개인 정보 보호법에 의거, 주민등록번호, 여권번호, 운전면허번호, 외국인 등록 번호 등 고유 식별 번호 원칙적 처리 금지, 영상 정보 처리기 규제

- 개인 정보 비식별화 기술 : 가명 처리 기법, 총계 처리, 데이터 값 삭제, 범주화, 데이터 마스킹