DataMining 2020. 4. 18. 21:33

Data

What is data?

Collection of data objects and their attributes
데이터는 데이터 객체들의 모음 그리고 그것들의 속성이다

Attribute Values

Attribute values are numbers or symbols assigned to an attribute

속성 값은 숫자들 또는 속성이 할당된 기호들이다.(?)
같은 값이 속성마다 다르게 표현될 수 있다.
예를 들어, height는 feet or meters로 측정될 수 있다.
서로 다른 속성이 같은 값이 될 수 있다.
Example) ID or Age are Integers. But properties of attribute values can be different

Type of Attributes

Nominal 명목속성 : id, color code
Ordinal 순서속성 : rankings, grades, height
Interval 간격, 구간값 : calender dates, temperature in Celsius
Ratio 절대기준에 의한 값 : temperature in kelvin, lengthm time, count

Properties of Attribute Values

The type of an attribute depends on which of the following properties it possesses:

속성의 유형은 다음 중 어떤 속성을 소유하는지에 따라 다릅니다.

Nominal attribute : distinctness(=, =x)
Ordinal attribute : distinctness , order(<,>)
Interval attribute : distictness, order , addition(+,-)
Ratio attribute : all 4 properties. distictness, order, addition, Multiplication

Types of data sets

Record : Data Matrix, Document, Transaction
Graph : WWW, Molecular Structures(분자구조)
Ordered : Spatial Data(전후관계), Tempral Data(시간), Sequential Data(순서), Genetic Sequence Data

Important Characteristics of Structured Data

Dimensionality 차원 : 차원의 저주
Sparsity 희소성 : Only presence counts (현재 상태만 계산)
Resolution : Patterns depend on the scale

Record Data : 고정된 속성 집합으로 구성된 데이터 집합
Data Matrix : 만약 데이터 객체들이 숫자타입의 같은 데이터 집합을 가지고 있다면 데이터 객체들은 다차원 공간에 점으로서 생각될 수 있다. 데이터 집합은 매트릭스 형태로 나타날 수 있다.
Document data : 각 문서는 term vector가 된다. 각 구성요소의 문서에 나오는 단어의 빈도 수 이다.
Transaction Data : 레코드 데이터의 특별한 타입이다. 각 레코드(트랜잭션)은 아이템 집합을 포함한다. 소매상점을 예로 들 수 있다. 고객이 한 번 구매할 때 제품의 리스트(트랜잭션)
Graph Data : ex) generic graph and html links, chemical data
Ordered data : sequences of transactions

Data Quality Problems

Noise : 노이즈는 원본 데이터의 변형을 참조한다.
Outliers(이상점, 극단치) : 아웃라이어는 주로 관측되는 데이터 집합과 다른 특성을 보이는 데이터 객체들이다.
Missing Values (결측값)
Duplicate Data(중복데이터)

Data PreProcessing

Aggregation(응집) : 여러 속성(객체)을 하나의 속성으로 합치는 것.
- 목적: 데이터 감소, 크기 변경, 안정된 데이터
Sampling(표집, 표본추출) : 비용이 크거나 시간 소비가 크기 때문에 수행
Dimensionality Reduction (차원 축소) :
- 목적: 차원의 저주(Curse of Dimensionality)를 피하기 위해 수행
Feature subset selection
Feature creation
Discrertization and Binarization
Attribute Transformation

차원의저주

데이터에서 모델을 학습할 때 독립적 샘플이 많을수록 학습이 잘 되는 반면 차원이 커질 수록 학습이 어려워지고 더 많은 데이터를 필요로 합니다.

다음 그래프들을 보면, 학습데이터 개수가 차원보다 적어질 때 급격히 성능이 나빠졌다. 일반적으로 변수보다 학습 데이터가 적은 경우를 underdetermined 된 문제라고 볼 수 있습니다. 즉, 차원이 커질수록 훨씬 더 많은 데이터를 가지고도 높은 성능에 이르지 못한다는 것이다.

PCA(Principal Component Analysis : 주성분분석)

주성분이라 함은 그 방향으로 데이터들의 분산이 가장 큰 방향벡터를 의미한다. PCA는 데이터의 분산(variance)을 최대한 보존하면서 서로 직교하는 새 기저(축)를 찾아, 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법입니다.

- 2차원의 데이터를 1차원으로 축소시킨다.

- 목표는 데이터의 가장 큰 변화량을 포착하는 투영을 찾는 것입니다.

- 공분산 행렬(covariance matrix)의 고유 벡터(eigenvectors)를 찾습니다. 고유 벡터는 새로운 공간을 정의합니다.

- eigenvectors 의 길이가 큰 것을 선택하여 주성분으로 채택.

- 정보손실이 발생함.

- 일부 attribute를 선택하는 것이 아니라 새로운 attribute가 나온다.

Feature Subset Selection

- 또다른 차원 축소방법

- 일부 attribute를 선택하는 것.

- 중복 features. ex) 구매가격 / 세금. 세금은 가격에 비례한다. 즉, 세금과 구매가격은 중복데이터.

- 부적절한 features : 별로 유용한 정보를 주지 못하는 정보들. 예를 들면, 학생 성적 분석하면 성적 데이터가 필요하지 학생의 학적정보는 필요없음

Feature Creation

새로운 속성을 만드는 것. 새로운 속성이 원래의 속성보다 더 효율적으로 작동할 수 있도록 하는 것.

Create new attributes that can capture the important information in a data set much more effiently than the original attributes.

- fourier transform, wavelet transform

Discretization(이산화) Using Class Labels

x의 값이 real number라면, x가 3개의 구간으로 나눠 3개 구간 중 하나의 값을 갖도록 한다.

어떻게 구간을 나눌 것인가? -> Entropy Class Label이용. Entropy가 최소화되는 방향으로.

Discretization without using class labels

초기상태: 데이터의 빈도가 나타낸 matrix가 주어짐.

구간을 나누는 방법들.

Equal Interval Width : 구간의 길이를 동일하게 나눈다.
Equal Frequency : 구간 안에 들어가는 Data의 개수가 동일하게 나눈다. 데이터의 개수를 count해야 하기 때문에 시간이 가장 오래걸린다. 가장 유의미한 결과를 도출할 수 있다.
K-means : 데이터를 clustering. 가까운 데이터끼리 군집화.

Attribute Transformation

어떤 속성에 대응되는 다른 속성의 값을 변환하는 것

주로 시계열 데이터에 사용됨. 시간에 따라 값(주가, 기온 등)이 어떻게 변화하는지.

실제 값이 아니라 함수를 통해 반환된 값을 y축으로 사용.

표준화와 정규화 과정을 거침.

simple function : x^k, log(x) e^x, |x|

*차원: 각 샘플을 정의하는 정보의 개수가 차원

*record : 여러 항목이 모여서 하나의 단위로 취급될 수 있는 연관성을 가진 자료. db에서는 행. 개체로도 표현함.

참고자료: https://hs5555.tistory.com/manage/newpost/?type=post&returnURL=%2Fmanage%2Fposts%2F

저작자표시 (새창열림)

'DataMining' 카테고리의 다른 글

Generative Adversarial Net : GAN (0)	2020.06.29
양자컴퓨팅 (0)	2020.06.29
Data (0)	2020.04.19
데이터마이닝 (0)	2020.04.08

ABOUT ME

Develop Log Develop Log

Data

'DataMining' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Data

'DataMining' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바