3주차
페이지 정보
작성자 Ryangkyung 작성일15-08-23 20:42 조회1,515회 댓글0건본문
Dimension Reduction
vocabulary = dimension
stop word: the, is about (document 마다 variance 작다) -> 제거
어떤 dimension 들이 같은 패턴으로 묶일 수 있는가?
Principal Components Analysis
orthogonal
PC: K 개를 찾을 때 까지
Singular Value Decomposition
Eigenvalue: eigenvector 순서대로 찾는 방법
1. Dimension Reduce
2. projection
3. reconstruction
4. Error -> minimize
classification: 답이 주어졌을 때
clustering: 답이 주어지지 않았을 때
ex) 비슷한 것 끼리 묶기
hard clustering: 하나의 데이터 포인트가 단 하나의 클러스터에 들어가게 함
K-means
soft clustering: 한 사진 안에 여러가지 물체가 있는 경우 같은 명확하지 않은 경우
Gaussian Mixture Model
K-means
K: 클러스터 개수
mean: 평균
1. initialize means
2. assign data to clusters
3. update & re-assign
4. convergence
움직임 폭이 적어진다.
data re-assign 없어지거나 줄어듬
issue
choosing K
outlier: 벗어난 point(측정 할 떄의 noise 혹은 관측 충분히 안 해서 생긴 문제)
만약 특정한 차원이 다른 차원보다 절대적인 숫자가 크다면, 다른 차원보다 의미는 같거나 떨어지면서도 분산이 커진다는 이유로 주성분이 그 차원에 가깝게 적용될 요지가 있습니다.
이를 방지하기 위해 모든 차원에 대해 scaling 을 시행
Scaling 이란 그 차원의 데이터 포인트의 min값을 0으로, max값을 1로 고정하여 선형변환하는 것
initial_centroids 는 선택적인 파라미터로 각 클러스터의 시작 지점
댓글목록
등록된 댓글이 없습니다.