기본 콘텐츠로 건너뛰기

라벨이 Data Science인 게시물 표시

[Data Science] 주성분 분석(PCA, Principal Component Analysis)

주성분 분석 (PCA, principal component analysis)란  차원축소와 변수추출 기법을 통해 전체 dataset(=독립변수)의 분산을 가장 잘 설명하는 성분을 말한다. 즉, 데이터 자원을 줄이고 중요한 정보를 추출하기 위해 사용되는 통계 기법이다. PCA는 다차원 dataset를 가장 중요한 변수(주성분)로 변환하여 데이터의 변동성을 최대한 보존하면서 아래 그림과 같이 차원을 축소한다. 분류(classification) 모델의 대표적인 dataset인 Iris 데이터와 Python 코드를 활용한 주성분 분석은 다음과 같다. 1 2 3 4 5 6 7 import  pandas  as  pd import  numpy  as  np # Fisher,R. A.. (1988). Iris. UCI Machine Learning Repository. https://doi.org/10.24432/C56C76. url  =   "https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv" # name = ['sepal length', 'sepal width', 'petal length', 'petal width', 'target'] df  =  pd.read_csv(url) print (df) 주성분 분석을 하기 전에 데이터 스케일링을 하는 이유는 데이터의 스케일에 따라 주성분의 설명 가능한 분산량이 달라질 수 있기 때문에 표준화를 진행한다. 여기서 표준화란 각 변수에 평균을 빼주고 표준편차로 나눠준다.  사이킷런의 preprocessing 서브 패키지를 이용하면 아래와 같다. 데이터 스케일링을 위한...

[Data Science] 연관 규칙 분석 (Association Rule Analysis) - Apriori algorithm

연관 규칙 분석이란? 데이터 기반 의사 결정 중 기본적 통계와 확률을 이용한 기법인 연관 규칙에 대해 알아보겠습니다. "맥주를 사면 기저귀를 같이 산다"와 같이 데이터를 기반으로한 진열 방식도 기존과는 달라지고 있다. 대형 마트 혹은 업체 간 경쟁이 치열한 상황에서 고객의 구매 이력 데이터를 바탕으로 상품을 진열한다. 그렇다면 연관 규칙은 무엇인지 개요부터 시작하도록 하자. 개요 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위한 분석 장바구니 분석(Market Basket Analysis) : 장바구니에 무엇이 같이 들어 있는지에 대한 분석 ex) 주말을 위해 목요일 기저귀를 사러 온 30대 직장인 고객은 맥주도 함께 사감 순차분석(Sequence Analysis) : 구 매 이력을 분석해서 A품목을 산 후 추가 B품목을 사는지를 분석 ex) 휴대폰을 새로 구매한 고객은 한달 내에 휴대폰 케이스를 구매 형태 조건과 반응의 형태 (if - then)의 확률과 같다. 즉 만일 A가 일어나면 B가 일어난다. 측도 지지도(Support)   : 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정 \( support(A\to B)=P(A) or P(A, B) \) 신뢰도(Confidence)   : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률이며 연관성의 정도를 파악할 수 있다. \( confidence(A\to B)=\frac{P(A\cap B)}{P(A)} \) 향상도(Lift) : A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율. 연관규칙 A → B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 된다. \( lift(A\to B)=\frac{P(A\cap B)}{P(A) \times P(B)} \) 만약 시계열 특성을 가지는 데이터는 어떻게 할 수 있을까? 사건 A...