수업을 통해 얻을 수 있는 자격 : ADsP(국가공인 데이터 분석 준전문가), 빅데이터 분석 기사, ADP
1. 빅데이터 개요 및 활용
(1) 데이터의 특징
- 데이터의 존재적 특성 : 객관적으로 존재하는 사실
- 데이터의 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거
- DIKW 피라미드 : Data > Information > Knowledge > Wisdom
(2) 데이터베이스
- 데이터 베이스 특징 : 통합된(중복 없는), 저장된, 공용, 변화하는 데이터
- 정보의 축정 및 전달 측면 특징 : 기계 가독성, 검색 가능성, 원격 조작성
- In-House DB : 내부 데이터
- OLTP(Online Transaction Processing) : 자동화 중심 시스템
- OLAP(Online Analyiacal Processing) : 분석 중심 시스템
- CRM(Customer Relationship Management), SCM(Supply Chain Management) : 고객 관계 관리, 공급망 관리
- OLTP 특징 : 현재 데이터, 동적으로 순간적 처리
- OLAP 특징 : 가공된 데이터, 정적으로 주기적 처리
- EAI(Enterprise Application Integration) : 서비스 간 연계가 필요한 경우, 연결 루트 간소화를 위해 App을 통합하여 운영
- KMS(Knowledge Management System) : 지식 경영 시스템, 기업이 보유하고 있는 지식을 통합하여 문제 해결 능력 향상
- SCM(Supply Chain Management) : 유통 단계를 최적화하는 공급망 관리
- ERP(Enterprise Resorce Planning) : 기업 경영 자원 통합 관리
- CRM(Customer Relationship Management) : 고객 관계 관리
- RTE(Real Time Enterprise) : 업무 프로세스에서 발생하는 정보 실시간 통합 전달
- LBS(Location Based System) : 공간 정보 관리하는 시스템
- 데이터베이스의 종류 : 계층형, 네트워크형, 분산형, 객체지향형
- RDB(Relationship Database) : 관계형 데이터 베이스, 엑셀 형식의 데이터 베이스, 하나의 열은 하나의 속성을 표현
- 데이터베이스의 구성 요소 : 인스턴트, 엔티티, 메타데이터, 인덱스
(3) 빅데이터란?
- 큰 용량과 복잡성으로 기존 어플이나 Tool로는 다루기 어려운 데이터 집합
- 빅데이터 특징 5V : Volume, Variety, Velocity(속도), Value, Veracity(신뢰성)
- 데이터 산정의 어려움 : 데이터 활용 방식, 가치 창출 방식, 분석기술의 발전
- 빅데이터 활용에 필요한 3요소 : 데이터, 기술, 인력
- 위기 요인 : 사생활 침해, 책임 원칙 훼손, 데이터 오용
(4) 빅데이터 조직
- 데이터 과제 발굴, 기술 검토, 전사 업무 적용 계획, 데이터 분석, 데이터 활용
- DA(Data Architecter) : 데이터 기반으로 IT 정책, 표준화, 구조, 설계 및 이행하는 직무
- 데이터 과학자 : 데이터 이해, 처리, 가치 추출, 시각화, 전달하는 사람
(5) 데이터 분석 성숙도 및 수준 진단
- 경쟁력 강화를 위해 데이터 분석 도입 여부와 활영 여부에 대한 분석 수준 점검이 필요
- 분석 업무 파악 > 분석 인력 및 조직 > 분석 기법 > 분석 데이터 > 분석 문화
- 성숙도 진단 모델 : CMMI(Capability Maturity Model Integration)
2. 빅데이터 기술과 플랫폼
- 빅데이터 라이프 사이클 : 원천 데이터 > 데이터 수집(Open API, Crawing) > 데이터 저장 > 데이터 처리/관리 > 데이터 분석 > 데이터 시각화
- 데이터 플랫폼 : 데이터의 수집, 저장, 처리, 관리, 분석을 지원하는 새로운 인사이트와 비즈니스 가치를 창출하는 빅테이터 프로세스 환경
- 빅데이터 관리 플랫폼 : 데이터 수집, 저장, 처리, 관리 소프트웨어
- 빅데이터 분석 플랫폼 : 머신러닝 등 분석 기술
- 하둡(Hadoop) : 빅데이터 관리 플랫폼 중 하나로 고가용성 분산형 객체 지향적 플랫폼, 오픈 자바 소프트웨어 프레임 워크
- 하둡의 특징 : HDFS을 통한 분산 저장과 맵리듀스를 통한 분산 처리, 실시간 데이터 처리 어려움
- 하둡의 데이터 저장 프로세스 : 데이터 > 맵리듀스(데이터 분산 처리) > HDFS(데이터 분산 저장) > YARN(분산 저장 클러스터 관리)
3. 빅데이터 제도
- 마이데이터 : 정보의 주체가 개인정보 권한을 갖고 관리하는 것
- 개인 정보 보호법, 정보 통신망법, 신용 정보법
- 개인 정보 보호법에 의거, 주민등록번호, 여권번호, 운전면허번호, 외국인 등록 번호 등 고유 식별 번호 원칙적 처리 금지, 영상 정보 처리기 규제
- 개인 정보 비식별화 기술 : 가명 처리 기법, 총계 처리, 데이터 값 삭제, 범주화, 데이터 마스킹