-
Data 1DataMining 2020. 4. 18. 21:33
Data
What is data?
- Collection of data objects and their attributes
- 데이터는 데이터 객체들의 모음 그리고 그것들의 속성이다
Attribute Values
Attribute values are numbers or symbols assigned to an attribute
- 속성 값은 숫자들 또는 속성이 할당된 기호들이다.(?)
- 같은 값이 속성마다 다르게 표현될 수 있다.
- 예를 들어, height는 feet or meters로 측정될 수 있다.
- 서로 다른 속성이 같은 값이 될 수 있다.
- Example) ID or Age are Integers. But properties of attribute values can be different
Type of Attributes
- Nominal 명목속성 : id, color code
- Ordinal 순서속성 : rankings, grades, height
- Interval 간격, 구간값 : calender dates, temperature in Celsius
- Ratio 절대기준에 의한 값 : temperature in kelvin, lengthm time, count
Properties of Attribute Values
The type of an attribute depends on which of the following properties it possesses:
속성의 유형은 다음 중 어떤 속성을 소유하는지에 따라 다릅니다.
- Nominal attribute : distinctness(=, =x)
- Ordinal attribute : distinctness , order(<,>)
- Interval attribute : distictness, order , addition(+,-)
- Ratio attribute : all 4 properties. distictness, order, addition, Multiplication
Types of data sets
- Record : Data Matrix, Document, Transaction
- Graph : WWW, Molecular Structures(분자구조)
- Ordered : Spatial Data(전후관계), Tempral Data(시간), Sequential Data(순서), Genetic Sequence Data
Important Characteristics of Structured Data
- Dimensionality 차원 : 차원의 저주
- Sparsity 희소성 : Only presence counts (현재 상태만 계산)
- Resolution : Patterns depend on the scale
- Record Data : 고정된 속성 집합으로 구성된 데이터 집합
- Data Matrix : 만약 데이터 객체들이 숫자타입의 같은 데이터 집합을 가지고 있다면 데이터 객체들은 다차원 공간에 점으로서 생각될 수 있다. 데이터 집합은 매트릭스 형태로 나타날 수 있다.
- Document data : 각 문서는 term vector가 된다. 각 구성요소의 문서에 나오는 단어의 빈도 수 이다.
- Transaction Data : 레코드 데이터의 특별한 타입이다. 각 레코드(트랜잭션)은 아이템 집합을 포함한다. 소매상점을 예로 들 수 있다. 고객이 한 번 구매할 때 제품의 리스트(트랜잭션)
- Graph Data : ex) generic graph and html links, chemical data
- Ordered data : sequences of transactions
Data Quality Problems
- Noise : 노이즈는 원본 데이터의 변형을 참조한다.
- Outliers(이상점, 극단치) : 아웃라이어는 주로 관측되는 데이터 집합과 다른 특성을 보이는 데이터 객체들이다.
- Missing Values (결측값)
- Duplicate Data(중복데이터)
Data PreProcessing
- Aggregation(응집) : 여러 속성(객체)을 하나의 속성으로 합치는 것.
- 목적: 데이터 감소, 크기 변경, 안정된 데이터
- Sampling(표집, 표본추출) : 비용이 크거나 시간 소비가 크기 때문에 수행
- Dimensionality Reduction (차원 축소) :
- 목적: 차원의 저주(Curse of Dimensionality)를 피하기 위해 수행
- Feature subset selection
- Feature creation
- Discrertization and Binarization
- Attribute Transformation
차원의저주
데이터에서 모델을 학습할 때 독립적 샘플이 많을수록 학습이 잘 되는 반면 차원이 커질 수록 학습이 어려워지고 더 많은 데이터를 필요로 합니다.
차원의 크기에 따른 학습모델 다음 그래프들을 보면, 학습데이터 개수가 차원보다 적어질 때 급격히 성능이 나빠졌다. 일반적으로 변수보다 학습 데이터가 적은 경우를 underdetermined 된 문제라고 볼 수 있습니다. 즉, 차원이 커질수록 훨씬 더 많은 데이터를 가지고도 높은 성능에 이르지 못한다는 것이다.
PCA(Principal Component Analysis : 주성분분석)
주성분이라 함은 그 방향으로 데이터들의 분산이 가장 큰 방향벡터를 의미한다. PCA는 데이터의 분산(variance)을 최대한 보존하면서 서로 직교하는 새 기저(축)를 찾아, 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법입니다.
- 2차원의 데이터를 1차원으로 축소시킨다.
- 목표는 데이터의 가장 큰 변화량을 포착하는 투영을 찾는 것입니다.
- 공분산 행렬(covariance matrix)의 고유 벡터(eigenvectors)를 찾습니다. 고유 벡터는 새로운 공간을 정의합니다.
- eigenvectors 의 길이가 큰 것을 선택하여 주성분으로 채택.
- 정보손실이 발생함.
- 일부 attribute를 선택하는 것이 아니라 새로운 attribute가 나온다.
Feature Subset Selection
- 또다른 차원 축소방법
- 일부 attribute를 선택하는 것.
- 중복 features. ex) 구매가격 / 세금. 세금은 가격에 비례한다. 즉, 세금과 구매가격은 중복데이터.
- 부적절한 features : 별로 유용한 정보를 주지 못하는 정보들. 예를 들면, 학생 성적 분석하면 성적 데이터가 필요하지 학생의 학적정보는 필요없음
Feature Creation
새로운 속성을 만드는 것. 새로운 속성이 원래의 속성보다 더 효율적으로 작동할 수 있도록 하는 것.
Create new attributes that can capture the important information in a data set much more effiently than the original attributes.
- fourier transform, wavelet transform
Discretization(이산화) Using Class Labels
x의 값이 real number라면, x가 3개의 구간으로 나눠 3개 구간 중 하나의 값을 갖도록 한다.
어떻게 구간을 나눌 것인가? -> Entropy Class Label이용. Entropy가 최소화되는 방향으로.
Discretization without using class labels
초기상태: 데이터의 빈도가 나타낸 matrix가 주어짐.
구간을 나누는 방법들.
- Equal Interval Width : 구간의 길이를 동일하게 나눈다.
- Equal Frequency : 구간 안에 들어가는 Data의 개수가 동일하게 나눈다. 데이터의 개수를 count해야 하기 때문에 시간이 가장 오래걸린다. 가장 유의미한 결과를 도출할 수 있다.
- K-means : 데이터를 clustering. 가까운 데이터끼리 군집화.
Attribute Transformation
어떤 속성에 대응되는 다른 속성의 값을 변환하는 것
주로 시계열 데이터에 사용됨. 시간에 따라 값(주가, 기온 등)이 어떻게 변화하는지.
실제 값이 아니라 함수를 통해 반환된 값을 y축으로 사용.
표준화와 정규화 과정을 거침.
simple function : x^k, log(x) e^x, |x|
*차원: 각 샘플을 정의하는 정보의 개수가 차원
*record : 여러 항목이 모여서 하나의 단위로 취급될 수 있는 연관성을 가진 자료. db에서는 행. 개체로도 표현함.
참고자료: https://hs5555.tistory.com/manage/newpost/?type=post&returnURL=%2Fmanage%2Fposts%2F
'DataMining' 카테고리의 다른 글
Generative Adversarial Net : GAN (0) 2020.06.29 양자컴퓨팅 (0) 2020.06.29 Data (0) 2020.04.19 데이터마이닝 (0) 2020.04.08