1. 주성분분석
(1) 주성분분석
- 원 데이터의 분포를 최대한 보존하면서 고차원의 데이터를 선형 연관성이 없는 저차원의 데이터로 차원 축소하여 분석 효율성을 제고
- 여러 변수들의 데이터를 주성분이라는 서로 상관성 높은 변수들의 선형 결합으로 만들어 변수 요약, 축소 기법
- 여러 변수 중 중요한 몇 개의 주성분으로 전체 변동의 대부분을 설명하는 알고리즘
(2) 주성분 분석의 목표
- 변수를 축소하여 모형의 설명력 제고
- 다중공선성 문제 해결
- 군집 분석 시 모형의 성능 제고
(3) PCA 과정
- 데이터의 분산을 최대한 보존하는 것이 목적
- 분산이 최대인 축(PC1)을 찾고, PC1과 직교하면서 분산이 최대인 다음 축을 찾고, 과정을 반복하면서 차원을 축소
- 직각 요인 회전 : 직각을 유지하면서 요인 구조가 가장 명확할 때까지 회전시키는 방식, 각 요인이 독립적, 상관관계 = 0 가정
(4) 주성분 분석 절차
- 1단계 : 평균과 편차를 구하고 공분산 행렬(변수들 사이의 공분산을 행렬로 나타낸 값)을 구함
- 2단계 : 고유 분해를 사용해 고윳값과 고유 벡터 계산
> 고유값 : 선형 변환 전후에 고유벡터의 방향으로 얼만큼 벡터 공간이 변화하는지 나타낸 값
> 고유 벡터 : 공분산행렬 A에 의해 선형 변환 된 벡터 중에 변환 전후 벡터 방향이 같은 벡터
- 3단계 : 고윳값이 큰 순서대로 나열
- 4단계 : 지정된 최소 분산 크기 이상을 설명하도록 n번째 고유 벡터 선택
- 5단계 : 기존 데이터 값에 고유 벡터를 내적아혀 새로운 차원의 값 생성
2. 요인분석
(1) 요인 분석
- 많은 변수들의 상호 관련성을 소수의 요인으로 추출하여 전체 변수들의 공통 요인을 찾아내 각 변수가 받는 영향의 정도와 그 집단의 특성을 규명하는 통계 분석 방법
- 다수의 변수들의 정보 손실을 최소화하면서 소수의 요인으로 축약
(2) 요인 분석의 목적
- 많은 변수들을 적은 수의 요인으로 묶어 축소
- 중요도가 낮은 변수 제거
- 요인들의 상호 독립적 특성 파악
- 측정 항목의 타당성 평가
(3) 요인 분석의 기본 개념
- 요인 : 상관 계수가 높은 변수들을 포함해 새롭게 생성된 변수 집단
- 요인 적재값 : 요인과 변수의 상관계수
- 요인 행렬 : 요인들의 요인 적재값을 모은 행렬
- 고윳값 : 변수들의 요인 적재값 제곱의 합, 해당 요인이 설명할 수 있는 변수들의 분산 총합
- 공통성 : 추출된 요인들이 그 변수의 정보를 얼만큼 설명할 수 있는지 의미(0~1)
(4) 요인 분석의 절차
- 데이터 입력
- 상관 계수 산출 : 유사한 변수를 하나의 요인으로 합침
- 요인 추출
- 요인 적재량 산출
- 요인 회전 : 요인과 각 변수들의 관계를 명확히 나타낼 수 있도록 회전(직각 회전)
- 요인 해석
- 요인 점수 산출
(5) 주성분 분석과 요인 분석의 차이
- 공통점 : 원 데이터를 활용하여 몇개의 새로운 변수 생성, 변수 축소 및 데이터 요약에 사용
- 주성분 분석 : 변수의 전체 분산을 토대로 요인 산출, 통상적으로 2개, 제 1주성분 > 제 2주성분
- 요인 분석 : 변수 간의 공분산을 토대로 요인 산출, 지정된 개수 없음, 그룹 내 변수들 간에는 상관계수가 높고, 다른 그룹 변수들 간에는 상관 계수가 낮음, 변수 이름 붙일 수 있음, 대등한 관계
3. 시계열 분석
(1) 시계열 분석 개요
- 불규칙성을 가지는 시계열 데이터에 특정한 기법이나 규칙적 패턴을 적용하여 과거 시계열 데이터의 패턴이 미래에도 지속적으로 유지된다는 가정하에 미래 예측하는 기법
- 규칙적 시계열 : 체계적 변동, 장기간에 걸쳐 트랜드, 분산이 반복, 추세 요인, 순환 요인, 계절 요인
- 불규칙적 시계열 : 불규칙 변동, 드랜드와 분산이 변동
- 추세 요인 : 장기간 또는 점진적으로 상승하거나 하강하는 패턴
- 순환 요인 : 특정 주기 또는 수년간의 간격으로 발생하는 주기적인 패턴
- 계절 요인 : 계절적인 영향과 사회적 관습으로 1년 주기로 발생하는 패턴
- 불규칙 요인 : 명확히 설명할 수 없는 요인에 의한 우연한 패턴
- 시계열 데이터 모델 평가 척도 : 평균 절대 오차(MAE), 평균 제곱 오차(MSE), 평균 제곱근 오차(RMSE), 평균 절대분비 오차(MAPE), 자기 상관성 함수(ACF), 부분 자기 상관성 함수(PACF)
- 자기 상관성 함수 : 특정 시점 t의 값과 특정 시저으로부터 l만큼 시차를 갖는 시점의 값의 상관 계수
- 부분 자기 상관성 함수 : 시점 t와 t+l 사이에 존재하는 자료값이 자기 상관 관계에 미치는 영향을 제거한 상관 함수
- 정상성 : 시간이 지남에 따라 시계열의 확률적 특징들이 변하지 않음, 일정한 평균, 분산,
> 일정한 평균 : 모든 시점의 평균이 일정, 차분은 현시점 값에서 전 시점의 자료 값을 뺀 것
> 일정한 분산 : 모든 시점의 분산이 일정, 자료 값에 지수 혹은 로그를 취해서 일정화
> 시차에만 의존하는 공분산 : 단치 시차에만 의존하고, 특정 시점에 의존하지 않음
(2) 전통적 시계열 분석 기법-
> 이동 평균법
- 과거로부터 현재까지 시계열 자료를 대상으로 일정 기간별 이동 평균을 계산하고 추세를 파악하여 다름 기간 예측
- 간단하고 쉽게 예측 가능, 안정적인 패턴을 가진 경우에는 예측 품질이 높음, 뚜렷한 추세가 있더나 불규칙 변동이 심하지 않은 경우 짧은 기간 m의 평균 사용, 불규칙 변동이 심한 경우 긴 기간 m의 평균 사용
> 지수 평활법
- 모든 시계열 자료를 사용하여 평균을 구하고 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측
- 자료수가 많고 안정적인 패턴에서 예측 품질이 높음, 불규칙 변동이 큰 시계열의 경우, 지수 평활 계수 낮은 값 채택
> 평활법
- 시계열의 데이터를 추세요인, 순환 요인, 계절 요인, 불규칙 요인으로 분해하는 기법, 단기 데이터 분석에 적합, 덧셈 분해, 곱셈 분해
- 덧셈 분해(가법) : 시계열의 변동 폭이 시간에 흐름에 관계 없이 일정한 경우
- 곱셈 분해(승법) : 시계열의 변동 폭이 시간에 흐름에 따라 증가하는 경우
(3) 확률적 시계열 분석 기법
- 자기 회귀 모델 : 현재와 과거의 자신과의 관계
> 자기 자신을 종속 변수, 과거 데이터를 독립 변수로 구성
- 이동 평균 모델 : 현재와 과거의 자신의 오차와의 관계 정의
> 자기 자신을 종속 변수, 해당 시점과 이전 시점이 오차로 독립 변수로 구성, 현 시점의 유한개의 백색 잡음이 선형 결합으로 표현하여 항상 정상성 만족
- 자기회귀 이동평균 모델 : 현재와 과거의 자신 그리고 자신과의 오차를 동시에 고려하여 정의
> 자기 자신을 종속 변수, 이전 시점의 데이터와 해당 시점과 이전 시점이 오차로 독립 변수로 구성
- 자기 회귀 이동 평균 모델 : 현재와 추세 간의 관계를 정의
> 비정상 시계열 데이터를 다룰 수 있는 모형으로 현실에 존재하는 대부분의 시계열 데이터 설명 가능
> 비정상 데이터는 차분이나 변환을 통해 정상화
4. 딥러닝
(1) 딥러닝의 이해
- 은닉층 2개 이상 가지고 컴퓨터가 스스로 분류 레이블을 만들어 구분 짓는 과정을 반복하여 최적의 구분선을 도출하는 방식
- 사전 학습, 역전파 알고리즘 사용
- 사고 표현 관점 : 여러 비선형 활성화 함수의 조합을 통해 자동으로 대용량 데이터 패턴 규칙 분석
- 머신 러닝 관점 : 적층 구조 통해 지도 학습과 비 지도학습이 결합된 머신 러닝
- 인공 신경망(ANN){퍼셉트론 > 다층 퍼셉트론} > 딥러닝{심층 신경망>심층 신경망 파생 알고리즘}
- 심층 신경망 : 은닉층을 2개 이상 지닌 인공 신경망 기반으로 계층적 데이터 학습 방법, 입력/은닉/출력층으로 구성, 파라미터 경사 하강법 등을 이용해 비용 함수 최소화 방향으로 최적화 진행
- 입력층/출력층 : 값을 전달
- 은닉층 : 값 계산, 입력층의 입력 노드보다 많이 편성되어야 함
(2) 딥러닝의 종류
- 합성곱 신경망 : 시각적 인지 연구를 기초로 인공 신경망에 필터링 기법을 적용하여 이미지 같은 2차원 데이터를 분석하는 심층 신경망 알고리즘
> 각 레이어의 입출력 데이터 형상 유지, 복수의 필터로 이미지 특징 추출 등
> 컨볼루션 레이어, 풀링 레이어를 반복적으로 구성하여 각 특징 추출 및 차원 축소 단계를 거쳐 최적화 수행
> 컨볼류션 레이어 : 특징 추출, 풀링 레이어 : 차원 축소, 풀리 커넥티드 레이어 : 하나로 연결
> 컨볼류션 레이어 연산 : 원본 이미지를 수치화하여 입력 데이터에 필터를 적용하여 특징 추출
> 슬라이딩 윈도우 : 원본 이미지를 필터 사이즈만큼 몇칸 단위로 이동하는 방식
> 패딩 : 입력 데이터의 외각에 지정된 픽셀만큼 특정 값으로 채워 넣는 것
> 풀링 레이어 : 서브 샘플링을 이용하여 특징맵의 크기를 줄이고, 위치나 이동에 더 강인한 성질을 갖는 특징을 추출
> 평균 풀링 : 특징맵을 풀링 크기만큼 자른 후 평균을 연산해 도출
> 최대 풀링 : 특징맵을 풀링 크기만큼 자른 후 최대값을 연산해 도출, 과적합 우려
> 확률 풀링 : 특징맵을 풀링 크기만큼 자른 후 확률값을 연산해 도출
- 순환 신경망 : 딥러닝 기반 자연어 처리
- RNN : 연속됭 데이터 상에서 이전 순서의 히든 노드 값을 저장한 후 다음 순서의 입력 데이터로 학습할 때 이전에 저장해 놓은 값을 이용함, 순환 구조에 적용한 것으로 연속된 입력에 적합
- 알고리즘 구성 : 시간(연속성), 입력틍, 은닉층(시간 경과 후 재 사용을 위해 저장된 배열 정보), 출력층
- RNN 학습 : 순환 사이클, 순환 가중치, BPTT 알고리즘, 순차적 알고리즘
- 장단기 메모리 신경망 : RNN은 장기 의존성 문제가 있어, 장단기메모리 신경을 따로 사용, 은닉층이 셀 상태와 3개의 게이트 구성
- Seq2Seq : 순환 신경망, 장단기 메모리 신경망 계열의 딥러닝 모델
- Attention : 인코더의 압축에서 발생하는 문제 해결한 모델
- Transfomer : 순환 신경망을 사용하지 않고, 인코더와 디코더를 만드는데 직접 사용
- BERT GPT : 양방향 학습, 중간 단어를 예측, 트랜스포머 인코더 사용, 사전학습, 파인튜닝
- GPT : 사전 학습된 데이터를 이용하여 신경망을 추가 전이하는 전이 학습 모델
- 심층 신뢰망 : 입력, 출력층만 구성되어있는 제한된 볼츠만 머신 모델, 초기 가중치 학습이 필수
- 생성적 적대 신경망 :생성자와 판별자가 서로 경쟁, 준 지도학습, 생성자는 거짓 데이터도 보내 학습 진행