ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Data 1
    DataMining 2020. 4. 18. 21:33

    Data

     

    What is data?

    • Collection of data objects and their attributes
    • 데이터는 데이터 객체들의 모음 그리고 그것들의 속성이다

     

    Attribute Values

    Attribute values are numbers or symbols assigned to an attribute

    • 속성 값은 숫자들 또는 속성이 할당된 기호들이다.(?)
    • 같은 값이 속성마다 다르게 표현될 수 있다.
    • 예를 들어, height는 feet or meters로 측정될 수 있다.
    • 서로 다른 속성이 같은 값이 될 수 있다.
    • Example) ID or Age are Integers. But properties of attribute values can be different

     

    Type of Attributes

    • Nominal 명목속성 : id, color code
    • Ordinal 순서속성 : rankings, grades, height
    • Interval 간격, 구간값 : calender dates, temperature in Celsius
    • Ratio 절대기준에 의한 값 : temperature in kelvin, lengthm time, count

     

    Properties of Attribute Values

    The type of an attribute depends on which of the following properties it possesses:

    속성의 유형은 다음 중 어떤 속성을 소유하는지에 따라 다릅니다.

    • Nominal attribute : distinctness(=, =x)
    • Ordinal attribute : distinctness , order(<,>) 
    • Interval attribute : distictness, order , addition(+,-)
    • Ratio attribute : all 4 properties. distictness, order, addition, Multiplication

     

    Types of data sets

    • Record : Data Matrix, Document, Transaction
    • Graph : WWW, Molecular Structures(분자구조)
    • Ordered : Spatial Data(전후관계), Tempral Data(시간), Sequential Data(순서), Genetic Sequence Data

     

    Important Characteristics of Structured Data

    • Dimensionality 차원 : 차원의 저주
    • Sparsity 희소성 : Only presence counts (현재 상태만 계산)
    • Resolution : Patterns depend on the scale
    • Record Data : 고정된 속성 집합으로 구성된 데이터 집합
    • Data Matrix : 만약 데이터 객체들이 숫자타입의 같은 데이터 집합을 가지고 있다면 데이터 객체들은 다차원 공간에 점으로서 생각될 수 있다. 데이터 집합은 매트릭스 형태로 나타날 수 있다.
    • Document data : 각 문서는 term vector가 된다. 각 구성요소의 문서에 나오는 단어의 빈도 수 이다. 
    • Transaction Data : 레코드 데이터의 특별한 타입이다. 각 레코드(트랜잭션)은 아이템 집합을 포함한다. 소매상점을 예로 들 수 있다. 고객이 한 번 구매할 때 제품의 리스트(트랜잭션)
    • Graph Data : ex) generic graph and html links, chemical data
    • Ordered data : sequences of transactions

     

    Data Quality Problems

    • Noise : 노이즈는 원본 데이터의 변형을 참조한다.
    • Outliers(이상점, 극단치) : 아웃라이어는 주로 관측되는 데이터 집합과 다른 특성을 보이는 데이터 객체들이다.
    • Missing Values (결측값) 
    • Duplicate Data(중복데이터) 

     

    Data PreProcessing

    • Aggregation(응집) : 여러 속성(객체)을 하나의 속성으로 합치는 것. 
      • 목적: 데이터 감소, 크기 변경, 안정된 데이터
    • Sampling(표집, 표본추출) : 비용이 크거나 시간 소비가 크기 때문에 수행
    • Dimensionality Reduction (차원 축소) : 
      • 목적: 차원의 저주(Curse of Dimensionality)를 피하기 위해 수행
    • Feature subset selection
    • Feature creation
    • Discrertization and Binarization
    • Attribute Transformation

     

    차원의저주 

    데이터에서 모델을 학습할 때 독립적 샘플이 많을수록 학습이 잘 되는 반면 차원이 커질 수록 학습이 어려워지고 더 많은 데이터를 필요로 합니다.

    차원의 크기에 따른 학습모델

    다음 그래프들을 보면, 학습데이터 개수가 차원보다 적어질 때 급격히 성능이 나빠졌다. 일반적으로 변수보다 학습 데이터가 적은 경우를 underdetermined 된 문제라고 볼 수 있습니다. 즉,  차원이 커질수록 훨씬 더 많은 데이터를 가지고도 높은 성능에 이르지 못한다는 것이다.

     

    PCA(Principal Component Analysis : 주성분분석)

     주성분이라 함은 그 방향으로 데이터들의 분산이 가장 큰 방향벡터를 의미한다. PCA는 데이터의 분산(variance)을 최대한 보존하면서 서로 직교하는 새 기저(축)를 찾아, 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법입니다.

    - 2차원의 데이터를 1차원으로 축소시킨다.

    - 목표는 데이터의 가장 큰 변화량을 포착하는 투영을 찾는 것입니다.

    - 공분산 행렬(covariance matrix)의 고유 벡터(eigenvectors)를 찾습니다. 고유 벡터는 새로운 공간을 정의합니다.

    - eigenvectors 의 길이가 큰 것을 선택하여 주성분으로 채택.

    - 정보손실이 발생함.

    - 일부 attribute를 선택하는 것이 아니라 새로운 attribute가 나온다.

     

    Feature Subset Selection

    - 또다른 차원 축소방법

    - 일부 attribute를 선택하는 것.

    - 중복 features. ex) 구매가격 / 세금. 세금은 가격에 비례한다. 즉, 세금과 구매가격은 중복데이터.

    - 부적절한 features : 별로 유용한 정보를 주지 못하는 정보들. 예를 들면, 학생 성적 분석하면 성적 데이터가 필요하지 학생의 학적정보는 필요없음

     

    Feature Creation

    새로운 속성을 만드는 것. 새로운 속성이 원래의 속성보다 더 효율적으로 작동할 수 있도록 하는 것.

    Create new attributes that can capture the important information in a data set much more effiently than the original attributes.

     - fourier transform, wavelet transform

     

    Discretization(이산화) Using Class Labels

    x의 값이 real number라면, x가 3개의 구간으로 나눠 3개 구간 중 하나의 값을 갖도록 한다.

    어떻게 구간을 나눌 것인가? -> Entropy Class Label이용. Entropy가 최소화되는 방향으로.

     

    Discretization without using class labels

    초기상태: 데이터의 빈도가 나타낸 matrix가 주어짐.

    구간을 나누는 방법들.

    • Equal Interval Width : 구간의 길이를 동일하게 나눈다.
    • Equal Frequency : 구간 안에 들어가는 Data의 개수가 동일하게 나눈다. 데이터의 개수를 count해야 하기 때문에 시간이 가장 오래걸린다. 가장 유의미한 결과를 도출할 수 있다.
    • K-means : 데이터를 clustering. 가까운 데이터끼리 군집화.

    Attribute Transformation 

    어떤 속성에 대응되는 다른 속성의 값을 변환하는 것     

    주로 시계열 데이터에 사용됨. 시간에 따라 값(주가, 기온 등)이 어떻게 변화하는지.

    실제 값이 아니라 함수를 통해 반환된 값을 y축으로 사용.

    표준화와 정규화 과정을 거침.

    simple function : x^k, log(x) e^x, |x|

     

     

    *차원: 각 샘플을 정의하는 정보의 개수가 차원

    *record : 여러 항목이 모여서 하나의 단위로 취급될 수 있는 연관성을 가진 자료. db에서는 행. 개체로도 표현함.

     

     

    참고자료: https://hs5555.tistory.com/manage/newpost/?type=post&returnURL=%2Fmanage%2Fposts%2F

    'DataMining' 카테고리의 다른 글

    Generative Adversarial Net : GAN  (0) 2020.06.29
    양자컴퓨팅  (0) 2020.06.29
    Data  (0) 2020.04.19
    데이터마이닝  (0) 2020.04.08
Designed by Tistory.