빅데이터 분석 실무 ④ 데이터 정제, 분석 변수 처리
1. 데이터 정제(1) 데이터 전처리(Preprocessing)- 데이터 정제와 통합, 축소, 변환을 포함하는 광의의 개념이며 데이터를 분석 처리에 적합한 형태로 만드는 과정을 의미함- 데이터 정제(Cleaning) 과정 + 분석 변수 처리 과정- 전체 작업의 60~70% 소요- 분석 결과의 신뢰도 제고를 위한 필수 과정- 데이터 정제 : 데이터 실수화, 결측값 처리, 이상값 처리- 분석 변수 처리 : 변수 선택, 차원 축소, 파생 변수 생성, 변수 변화, 불균형 데이터 처리(2) 데이터 정제의 개념- 데이터 전처리의 한 과정으로 결측값, 잡은, 이상값 등 데이터 오류를 일으킬 수 있는 요인을 제거하고 불일치를 해결하여 데이터의 신뢰를 높이는 과정- 결측값 : 값이 존재하지 않고 비어있는 상태(미응답)-..
2024. 10. 7.
빅데이터기초 프로그래밍 ④ 3대 프로그래밍 요소, 혼합 문제
1. 3대 프로그래밍(1) 순차 프로그램- 파이썬 프로그램은 인터프리터 언어로 위에서부터 아래로 실행됨 (Concurent : 순차, Parallel : 동시)- 앞/뒤 문장과 연결되지 않고 실행되는 현재 라인- 순차의 의미 : 각각의 문장이 조건 없이 위에서 아래로 실행됨- 파이썬의 일부 명령은 ;을 이용하여 한 줄에 여러 개의 문장을 작성할 수 있음(2) 반복 프로그램- 유의미한 반복 프로그램은 반드시 순차 프로그램을 가짐 (for, while)- 반복되는 문장 또는 문장들을 반드시 들여쓰기를 해야 함(3) 조건 프로그램- 특정 조건에 따라 블록을 실행함 (if)- python은 조건 값이 None, Null, 0, 0.0, '', [], {}, (), set()이면 False로 인식 2. 혼합문제(..
2024. 10. 6.