본문 바로가기
카테고리 없음

빅데이터 분석 실무 ⑪ 주성분분석, 요인분석, 시계열 분석, 딥러닝

by hey-min-eee 2024. 11. 13.

1. 주성분분석

(1) 주성분분석

- 원 데이터의 분포를 최대한 보존하면서 고차원의 데이터를 선형 연관성이 없는 저차원의 데이터로 차원 축소하여 분석 효율성을 제고

- 여러 변수들의 데이터를 주성분이라는 서로 상관성 높은 변수들의 선형 결합으로 만들어 변수 요약, 축소 기법

- 여러 변수 중 중요한 몇 개의 주성분으로 전체 변동의 대부분을 설명하는 알고리즘

(2) 주성분 분석의 목표

- 변수를 축소하여 모형의 설명력 제고

- 다중공선성 문제 해결

- 군집 분석 시 모형의 성능 제고

(3) PCA 과정

- 데이터의 분산을 최대한 보존하는 것이 목적

- 분산이 최대인 축(PC1)을 찾고, PC1과 직교하면서 분산이 최대인 다음 축을 찾고, 과정을 반복하면서 차원을 축소

- 직각 요인 회전 : 직각을 유지하면서 요인 구조가 가장 명확할 때까지 회전시키는 방식, 각 요인이 독립적, 상관관계 = 0 가정

(4) 주성분 분석 절차

- 1단계 : 평균과 편차를 구하고 공분산 행렬(변수들 사이의 공분산을 행렬로 나타낸 값)을 구함

- 2단계 : 고유 분해를 사용해 고윳값과 고유 벡터 계산

 > 고유값 : 선형 변환 전후에 고유벡터의 방향으로 얼만큼 벡터 공간이 변화하는지 나타낸 값

 > 고유 벡터 : 공분산행렬 A에 의해 선형 변환 된 벡터 중에 변환 전후 벡터 방향이 같은 벡터

- 3단계 : 고윳값이 큰 순서대로 나열

- 4단계 : 지정된 최소 분산 크기 이상을 설명하도록 n번째 고유 벡터 선택

- 5단계 : 기존 데이터 값에 고유 벡터를 내적아혀 새로운 차원의 값 생성

2. 요인분석

(1) 요인 분석

- 많은 변수들의 상호 관련성을 소수의 요인으로 추출하여 전체 변수들의 공통 요인을 찾아내 각 변수가 받는 영향의 정도와 그 집단의 특성을 규명하는 통계 분석 방법

- 다수의 변수들의 정보 손실을 최소화하면서 소수의 요인으로 축약

(2) 요인 분석의 목적

- 많은 변수들을 적은 수의 요인으로 묶어 축소

- 중요도가 낮은 변수 제거

- 요인들의 상호 독립적 특성 파악

- 측정 항목의 타당성 평가

(3) 요인 분석의 기본 개념

- 요인 : 상관 계수가 높은 변수들을 포함해 새롭게 생성된 변수 집단

- 요인 적재값 : 요인과 변수의 상관계수

- 요인 행렬 : 요인들의 요인 적재값을 모은 행렬

- 고윳값 : 변수들의 요인 적재값 제곱의 합, 해당 요인이 설명할 수 있는 변수들의 분산 총합

- 공통성 : 추출된 요인들이 그 변수의 정보를 얼만큼 설명할 수 있는지 의미(0~1)

(4) 요인 분석의 절차

- 데이터 입력

- 상관 계수 산출 : 유사한 변수를 하나의 요인으로 합침

- 요인 추출

- 요인 적재량 산출

- 요인 회전 : 요인과 각 변수들의 관계를 명확히 나타낼 수 있도록 회전(직각 회전)

- 요인 해석

- 요인 점수 산출

(5) 주성분 분석과 요인 분석의 차이

- 공통점 : 원 데이터를 활용하여 몇개의 새로운 변수 생성, 변수 축소 및 데이터 요약에 사용

- 주성분 분석 : 변수의 전체 분산을 토대로 요인 산출, 통상적으로 2개, 제 1주성분 > 제 2주성분

- 요인 분석 : 변수 간의 공분산을 토대로 요인 산출, 지정된 개수 없음, 그룹 내 변수들 간에는 상관계수가 높고, 다른 그룹 변수들 간에는 상관 계수가 낮음, 변수 이름 붙일 수 있음, 대등한 관계

3. 시계열 분석

(1) 시계열 분석 개요

- 불규칙성을 가지는 시계열 데이터에 특정한 기법이나 규칙적 패턴을 적용하여 과거 시계열 데이터의 패턴이 미래에도 지속적으로 유지된다는 가정하에 미래 예측하는 기법

- 규칙적 시계열 : 체계적 변동, 장기간에 걸쳐 트랜드, 분산이 반복, 추세 요인, 순환 요인, 계절 요인

- 불규칙적 시계열 : 불규칙 변동, 드랜드와 분산이 변동

- 추세 요인 : 장기간 또는 점진적으로 상승하거나 하강하는 패턴

- 순환 요인 : 특정 주기 또는 수년간의 간격으로 발생하는 주기적인 패턴

- 계절 요인 : 계절적인 영향과 사회적 관습으로 1년 주기로 발생하는 패턴

- 불규칙 요인 : 명확히 설명할 수 없는 요인에 의한 우연한 패턴

- 시계열 데이터 모델 평가 척도 : 평균 절대 오차(MAE), 평균 제곱 오차(MSE), 평균 제곱근 오차(RMSE), 평균 절대분비 오차(MAPE), 자기 상관성 함수(ACF), 부분 자기 상관성 함수(PACF)

- 자기 상관성 함수 : 특정 시점 t의 값과 특정 시저으로부터 l만큼 시차를 갖는 시점의 값의 상관 계수

- 부분 자기 상관성 함수 : 시점 t와 t+l 사이에 존재하는 자료값이 자기 상관 관계에 미치는 영향을 제거한 상관 함수

- 정상성 : 시간이 지남에 따라 시계열의 확률적 특징들이 변하지 않음, 일정한 평균, 분산, 

 > 일정한 평균 : 모든 시점의 평균이 일정, 차분은 현시점 값에서 전 시점의 자료 값을 뺀 것

 > 일정한 분산 : 모든 시점의 분산이 일정, 자료 값에 지수 혹은 로그를 취해서 일정화

 > 시차에만 의존하는 공분산 : 단치 시차에만 의존하고, 특정 시점에 의존하지 않음

(2) 전통적 시계열 분석 기법-

> 이동 평균법

 - 과거로부터 현재까지 시계열 자료를 대상으로 일정 기간별 이동 평균을 계산하고 추세를 파악하여 다름 기간 예측

 - 간단하고 쉽게 예측 가능, 안정적인 패턴을 가진 경우에는 예측 품질이 높음, 뚜렷한 추세가 있더나 불규칙 변동이 심하지 않은 경우 짧은 기간 m의 평균 사용, 불규칙 변동이 심한 경우 긴 기간 m의 평균 사용

 > 지수 평활법 

- 모든 시계열 자료를 사용하여 평균을 구하고 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측

- 자료수가 많고 안정적인 패턴에서 예측 품질이 높음, 불규칙 변동이 큰 시계열의 경우, 지수 평활 계수 낮은 값 채택

> 평활법

- 시계열의 데이터를 추세요인, 순환 요인, 계절 요인, 불규칙 요인으로 분해하는 기법, 단기 데이터 분석에 적합, 덧셈 분해, 곱셈 분해

- 덧셈 분해(가법) : 시계열의 변동 폭이 시간에 흐름에 관계 없이 일정한 경우

- 곱셈 분해(승법) : 시계열의 변동 폭이 시간에 흐름에 따라 증가하는 경우

(3) 확률적 시계열 분석 기법

- 자기 회귀 모델 : 현재와 과거의 자신과의 관계

 > 자기 자신을 종속 변수, 과거 데이터를 독립 변수로 구성

- 이동 평균 모델 : 현재와 과거의 자신의 오차와의 관계 정의

 >  자기 자신을 종속 변수, 해당 시점과 이전 시점이 오차로 독립 변수로 구성, 현 시점의 유한개의 백색 잡음이 선형 결합으로 표현하여 항상 정상성 만족

- 자기회귀 이동평균 모델 : 현재와 과거의 자신 그리고 자신과의 오차를 동시에 고려하여 정의

 >  자기 자신을 종속 변수, 이전 시점의 데이터와 해당 시점과 이전 시점이 오차로 독립 변수로 구성 

- 자기 회귀 이동 평균 모델 : 현재와 추세 간의 관계를 정의

 > 비정상 시계열 데이터를 다룰 수 있는 모형으로 현실에 존재하는 대부분의 시계열 데이터 설명 가능

 > 비정상 데이터는 차분이나 변환을 통해 정상화

4. 딥러닝

(1) 딥러닝의 이해

- 은닉층 2개 이상 가지고 컴퓨터가 스스로 분류 레이블을 만들어 구분 짓는 과정을 반복하여 최적의 구분선을 도출하는 방식

- 사전 학습, 역전파 알고리즘 사용

- 사고 표현 관점 : 여러 비선형 활성화 함수의 조합을 통해 자동으로 대용량 데이터 패턴 규칙 분석

- 머신 러닝 관점 : 적층 구조 통해 지도 학습과 비 지도학습이 결합된 머신 러닝

- 인공 신경망(ANN){퍼셉트론 > 다층 퍼셉트론} > 딥러닝{심층 신경망>심층 신경망 파생 알고리즘}

- 심층 신경망 : 은닉층을 2개 이상 지닌 인공 신경망 기반으로 계층적 데이터 학습 방법, 입력/은닉/출력층으로 구성, 파라미터 경사 하강법 등을 이용해 비용 함수 최소화 방향으로 최적화 진행

- 입력층/출력층 : 값을 전달

- 은닉층 : 값 계산, 입력층의 입력 노드보다 많이 편성되어야 함

(2) 딥러닝의 종류

- 합성곱 신경망 : 시각적 인지 연구를 기초로 인공 신경망에 필터링 기법을 적용하여 이미지 같은 2차원 데이터를 분석하는 심층 신경망 알고리즘

 > 각 레이어의 입출력 데이터 형상 유지, 복수의 필터로 이미지 특징 추출 등

 > 컨볼루션 레이어, 풀링 레이어를 반복적으로 구성하여 각 특징 추출 및 차원 축소 단계를 거쳐 최적화 수행

 > 컨볼류션 레이어 : 특징 추출, 풀링 레이어 : 차원 축소, 풀리 커넥티드 레이어 : 하나로 연결

 > 컨볼류션 레이어 연산 : 원본 이미지를 수치화하여 입력 데이터에 필터를 적용하여 특징 추출

 > 슬라이딩 윈도우 : 원본 이미지를 필터 사이즈만큼 몇칸 단위로 이동하는 방식

 > 패딩 : 입력 데이터의 외각에 지정된 픽셀만큼 특정 값으로 채워 넣는 것

 > 풀링 레이어 : 서브 샘플링을 이용하여 특징맵의 크기를 줄이고, 위치나 이동에 더 강인한 성질을 갖는 특징을 추출

 > 평균 풀링 : 특징맵을 풀링 크기만큼 자른 후 평균을 연산해 도출

 > 최대 풀링 : 특징맵을 풀링 크기만큼 자른 후 최대값을 연산해 도출, 과적합 우려

 > 확률 풀링 : 특징맵을 풀링 크기만큼 자른 후 확률값을 연산해 도출

- 순환 신경망 : 딥러닝 기반 자연어 처리

- RNN : 연속됭 데이터 상에서 이전 순서의 히든 노드 값을 저장한 후 다음 순서의 입력 데이터로 학습할 때 이전에 저장해 놓은 값을 이용함, 순환 구조에 적용한 것으로 연속된 입력에 적합

- 알고리즘 구성 : 시간(연속성), 입력틍, 은닉층(시간 경과 후 재 사용을 위해 저장된 배열 정보), 출력층

- RNN 학습 : 순환 사이클, 순환 가중치, BPTT 알고리즘, 순차적 알고리즘

- 장단기 메모리 신경망 : RNN은 장기 의존성 문제가 있어, 장단기메모리 신경을 따로 사용, 은닉층이 셀 상태와 3개의 게이트 구성

- Seq2Seq : 순환 신경망, 장단기 메모리 신경망 계열의 딥러닝 모델

- Attention : 인코더의 압축에서 발생하는 문제 해결한 모델

- Transfomer : 순환 신경망을 사용하지 않고, 인코더와 디코더를 만드는데 직접 사용

- BERT GPT : 양방향 학습, 중간 단어를 예측, 트랜스포머 인코더 사용, 사전학습, 파인튜닝

- GPT : 사전 학습된 데이터를 이용하여 신경망을 추가 전이하는 전이 학습 모델

- 심층 신뢰망 : 입력, 출력층만 구성되어있는 제한된 볼츠만 머신 모델, 초기 가중치 학습이 필수

- 생성적 적대 신경망 :생성자와 판별자가 서로 경쟁, 준 지도학습, 생성자는 거짓 데이터도 보내 학습 진행