Data :: Develop Log

DataMining 2020. 4. 19. 04:52

Similarity (유사도)

2개의 데이터 오브젝트가 얼마나 비슷한지 수치적으로 측정하는 것.
유사도가 높을 수록 값이 높고, 유사도가 낮을 수록 값이 낮다.
보통 0에서 1사이의 Real Number을 사용한다.

Dissmilarity (비유사도)

2개의 데이터가 얼마나 다른지 수치적으로 측정한 것.
데이터가 유사할수록 값이 작다. 유사하지 않을 수록 값이 크다.
0~1로 표현

Proximity (근접?)

유사도와 비유사도를 구분하지 않고 사용하는 것

Attribute Type	Dissamilarity	Similarity
Nominal	if p=q -> d=0 (데이터가 유사할 수록 값이 작다) if p ≠ q -> d=1 (데이터가 유사하지 않을 수록 값이 크다)	if p=q -> d=1 if p ≠ q -> d=0
Ordinal
Interval or Ratio	d = \|p-q\|

Euclidean Distance

Minkowski distance

r=1, City Block (Manhattan Distance)

도시의 건물들로 인해 직선거리(대각선)으로 갈 수 없음.

r=2, Euclidean distance

r=무한, supremum distance

Mahalanobis(마할라노비스) distance (유클리디언 거리를 일반화)

:두 선이 같은 거리가 되게 하는 것.

Common Properties of a Distance (Matric Properties)

1. 두 데이터 사이의 거리는 항상 양수. 단 p=q일 때만

2. d(p,q) =d(q,p)

3. d(p,r) <= d(p,q)+d(q,r): 삼각형의 부등식

다음 3조건을 만족해야 한다.

Similarity Between Binary Vectors

binary attributes인 p와 q를 가진 벡터 ex) [0,1] [-1,1]

Simple Matching and Jaccard Coefficients

SMC = number of matches / number of attributes

= (M11+M00) / (M01+M10+M11+M00)

= 값이 같은 속성 / 전체 속성

Jaccard Coefficients = number of 11 matches / number of not-both-zero attribute values

J = M11/(M01+M10+M11)

M00은 유사도를 판단하는데 도움이 되지 않음.

값이 1이 나왔다면 두 데이터는 유사함. 0이 나왔다면 유사하지 않음.

Cosine Similarity

: Document 데이터의 유사도를 판단.

Cos(d1, d2)

d1, d2는 검출단어의 빈도를 나타낸 벡터임.

두 벡터를 그려보면 방향에 따른 각도가 생기는데 이 코사인 각도를 기준으로 Document의 유사도를 판단.

cos0 = 1, cos90 = 0, cos180 = -1

코사인각이 작을 수록 유사도가 높음.

벡터의 크기보다는 형성된 각이 중요함.

ex)경제학 논문 100장을 10장으로 요약했을 경우, 단어의 빈도 수는 줄어들겠지만 벡터의 방향(형태)은 비슷할 것.

Extended Jaccard Coefficient

연속된 real number속성을 가진 variation of jaccard

Correlation (상관관계) - Visually Evaluating Correlation

|1|에 가까울 수록 상관관계 있음. 0은 없음

Genaral Approach for Combining Similarities

Sometimes attributes are of many different types, but an overall similarity is needed

때때로 속성은 여러 유형이 있지만 전반적인 유사성이 필요합니다.

Using Weights to Combine Similarities 가중치를 사용하여 유사도를 결합

May not want to treat all attributes the same 모든 속성을 동일하게 취급하고 싶지 않을 수 있습니다

Density 밀도

Density-based clustering require a notion of density

Euclidean Density - Cell-based : 구간을 Cell로 나누고 각 Cell 내의 데이터를 Count함.

Euclidean Density - Center-based : 중앙을 기준으로 원을 그렸을 때 그 안에 있는 데이터를 Count.

저작자표시

'DataMining' 카테고리의 다른 글

Generative Adversarial Net : GAN (0)	2020.06.29
양자컴퓨팅 (0)	2020.06.29
Data 1 (0)	2020.04.18
데이터마이닝 (0)	2020.04.08

ABOUT ME

Develop Log Develop Log

'DataMining' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'DataMining' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바