3주차

페이지 정보

작성자 Ryangkyung 작성일15-08-23 20:42 조회1,515회 댓글0건

Dimension Reduction

vocabulary = dimension

stop word: the, is about (document 마다 variance 작다) -> 제거

어떤 dimension 들이 같은 패턴으로 묶일 수 있는가?

Principal Components Analysis

orthogonal

PC: K 개를 찾을 때 까지

Singular Value Decomposition

Eigenvalue: eigenvector 순서대로 찾는 방법

1. Dimension Reduce

2. projection

3. reconstruction

4. Error -> minimize

classification: 답이 주어졌을 때

clustering: 답이 주어지지 않았을 때

ex) 비슷한 것 끼리 묶기

hard clustering: 하나의 데이터 포인트가 단 하나의 클러스터에 들어가게 함

K-means

soft clustering: 한 사진 안에 여러가지 물체가 있는 경우 같은 명확하지 않은 경우

Gaussian Mixture Model

K-means

K: 클러스터 개수

mean: 평균

1. initialize means

2. assign data to clusters

3. update & re-assign

4. convergence

움직임 폭이 적어진다.

data re-assign 없어지거나 줄어듬

issue

choosing K

outlier: 벗어난 point(측정 할 떄의 noise 혹은 관측 충분히 안 해서 생긴 문제)

만약 특정한 차원이 다른 차원보다 절대적인 숫자가 크다면, 다른 차원보다 의미는 같거나 떨어지면서도 분산이 커진다는 이유로 주성분이 그 차원에 가깝게 적용될 요지가 있습니다.

이를 방지하기 위해 모든 차원에 대해 scaling 을 시행

Scaling 이란 그 차원의 데이터 포인트의 min값을 0으로, max값을 1로 고정하여 선형변환하는 것

initial_centroids 는 선택적인 파라미터로 각 클러스터의 시작 지점

등록된 댓글이 없습니다.