ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Data
    DataMining 2020. 4. 19. 04:52

    Similarity (유사도)

    • 2개의 데이터 오브젝트가 얼마나 비슷한지 수치적으로 측정하는 것.
    • 유사도가 높을 수록 값이 높고, 유사도가 낮을 수록 값이 낮다.
    • 보통 0에서 1사이의 Real Number을 사용한다.

     

    Dissmilarity (비유사도)

    • 2개의 데이터가 얼마나 다른지 수치적으로 측정한 것.
    • 데이터가 유사할수록 값이 작다. 유사하지 않을 수록 값이 크다.
    • 0~1로 표현

    Proximity (근접?)

    • 유사도와 비유사도를 구분하지 않고 사용하는 것
    Attribute Type Dissamilarity Similarity
    Nominal

    if p=q -> d=0

    (데이터가 유사할 수록 값이 작다)

    if p ≠ q -> d=1

    (데이터가 유사하지 않을 수록 값이 크다)

    if p=q -> d=1

    if p ≠ q -> d=0

     

    Ordinal    
    Interval or Ratio d = |p-q|  

     

    Euclidean Distance

     

    Minkowski distance

    r=1, City Block (Manhattan Distance)

    도시의 건물들로 인해 직선거리(대각선)으로 갈 수 없음.

    r=2, Euclidean distance

    r=무한, supremum distance

     

    Mahalanobis(마할라노비스) distance (유클리디언 거리를 일반화)

    :두 선이 같은 거리가 되게 하는 것.

     

    Common Properties of a Distance (Matric Properties)

    1. 두 데이터 사이의 거리는 항상 양수. 단 p=q일 때만

    2. d(p,q) =d(q,p)

    3. d(p,r) <= d(p,q)+d(q,r): 삼각형의 부등식

    다음 3조건을 만족해야 한다.

     

    Similarity Between Binary Vectors

    binary attributes인 p와 q를 가진 벡터 ex) [0,1] [-1,1]

     

    Simple Matching and Jaccard Coefficients

    SMC = number of matches / number of attributes

           = (M11+M00) / (M01+M10+M11+M00)

           = 값이 같은 속성 / 전체 속성

     

    Jaccard Coefficients = number of 11 matches / number of not-both-zero attribute values

    J = M11/(M01+M10+M11)

    M00은 유사도를 판단하는데 도움이 되지 않음.

    값이 1이 나왔다면 두 데이터는 유사함. 0이 나왔다면 유사하지 않음.


    Cosine Similarity 

    : Document 데이터의 유사도를 판단.

    Cos(d1, d2)

    d1, d2는 검출단어의 빈도를 나타낸 벡터임.

    두 벡터를 그려보면 방향에 따른 각도가 생기는데 이 코사인 각도를 기준으로 Document의 유사도를 판단.

    cos0 = 1, cos90 = 0, cos180 = -1 

    코사인각이 작을 수록 유사도가 높음.

    벡터의 크기보다는 형성된 각이 중요함.

    ex)경제학 논문 100장을 10장으로 요약했을 경우, 단어의 빈도 수는 줄어들겠지만  벡터의 방향(형태)은 비슷할 것. 

     

    Extended Jaccard Coefficient

    연속된 real number속성을 가진 variation of jaccard

     

    Correlation (상관관계) - Visually Evaluating Correlation

    |1|에 가까울 수록 상관관계 있음. 0은 없음     

     

    Genaral Approach for Combining Similarities

    Sometimes attributes are of many different types, but an overall similarity is needed

    때때로 속성은 여러 유형이 있지만 전반적인 유사성이 필요합니다.

     

    Using Weights to Combine Similarities 가중치를 사용하여 유사도를 결합 

    May not want to treat all attributes the same 모든 속성을 동일하게 취급하고 싶지 않을 수 있습니다

     

    Density 밀도

    Density-based clustering require a notion of density

    Euclidean Density - Cell-based : 구간을 Cell로 나누고 각 Cell 내의 데이터를 Count함.

    Euclidean Density - Center-based : 중앙을 기준으로 원을 그렸을 때 그 안에 있는 데이터를 Count.

    'DataMining' 카테고리의 다른 글

    Generative Adversarial Net : GAN  (0) 2020.06.29
    양자컴퓨팅  (0) 2020.06.29
    Data 1  (0) 2020.04.18
    데이터마이닝  (0) 2020.04.08
Designed by Tistory.