데이터마이닝

DataMining 2020. 4. 8. 22:49

데이터 마이닝(data mining)이란?

데이터마이닝은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다. KDD(knowledge-discovery in database, 데이터베이스 속의 지식 발견)이라고도 한다.
Data mining is the process of discovering patterns in large data sets involving methods at the intersection of machine learning, statistics, and database systems.
Non-trivial extraction of implicit, previously unknown and potentailly useful information from data exploration / analysis, by automatic or semi-automatic means, of large qeuantites of data in order to discover meaningful patterns

Process

1. Selection -> TargetData

2. Pre-processing -> processed data

3. Transformation -> Transformed data

4. Data mining -> Patterns

5. Interpreter/Evaluation ->Knowledge

DataMining Task

- Prediction Methods

:Use some Variables to predict unknown or future values of the variables

- Description Methods

: Find Human-interpretable patterns that describe the data

적용분야

1. 분류 Classification

: 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다.
Training Set과 Test Set을 비교하여 일치정도를 확인하고 얼마나 정확하냐에 따라 모델을 만드는 것.
Classification은 Supervised learning 지도학습의 일종으로 기존에 존재하는 데이터(Training Set)의 category 관계를 파악하고, 새롭게 관측된 데이터(Test Set)의 category를 스스로 판별하는 과정이다.
Training Set으로 학습하고 모델을 개발한 후에 TestSet과 비교하여 정확도를 분석하고 평가.
ex)
경쟁자에게로 이탈한 고객.
고객을 {buy, dont buy}클래스로 분류하고 buy고객에게만 marketing을 실시하고자 할 때.
신용카드 정상 비정상 분류
소매점에서의 고객 이탈 예측. 고객성향분석-> 충성심 분류
행성분류

2. 군집화 Clustering

구체적인 특성을 공유하는 군집을 찾는다. 군집화는 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 Classification과 다르다.

Given a set of data points, each having a set of attributes, and a similarity measure among them, find clusters such that

- 유사한 데이터끼리 군집화함. 데이터 포인트 집합이 덜 유사하면 분리시킴.

Intercluster distances are minimized.

Intercluster distances are maximized

ex) 유사 행동 집단의 구분

시장 분할 - 데이터 속성을 이용해서 고객을 클러스터링하고 클러스터링한 결과를 측정해서 성능을 평가.

문서 클러스터링 - 단어검출 빈도를 통해 유사한 문서끼리 군집화.

금융 데이터 클러스터링 - 2개의 주식종목이 어떤 이벤트가 발생했을 때 같이 변동하는가를 분석.

3. 연관성 Association Rule Discovery

동시에 발생한 사건간의 관계를 정의한다.

ex) 장바구니 안에 동시에 들어 가는 상품들의 관계 규명

{milk} -->{coke} 우유를 구매한 사람은 콜라도 함께 구매할 것.

{diaper, milk} -> {beer} diaper, mlik를 구매하면 beer도 구매할 것.

4. 예측 forecasting

대용량 데이터 집합 내의 패턴을 기반으로 미래를 예측한다.

ex) 수요예측

5. Sequential Pattern Discovery (Desciptive)

시간적 순서에 따른 규칙을 찾는다.

6. 회귀 Regression (predictive)

관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한뒤 적합도를 측정해 내는 분석 방법이다.

ex) 온도,습도,기압 -> 바람의 속도 예측(연속값)

7. Deviation(Anomaly/Outlier) Detection (predictive)

이상현상을 탐지하는 것.

ex) 신용카드 부정 사용 탐지. 네트워크 침투 탐지.

데이터마이닝의 단점/한계

자료(Data)에 의존하여 현상을 해석하고 개선하려고 하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수가 있다.

Challenges of DataMining

Scalability 확장성 - 사용자 수의 증대에 유연하게 대응할 수 있는 정도
Dimensionality Reduction 차원 축소 - 불피요한 데이터 제거
Complex and Heterogeneous data 복잡하고 여러 종류로 이루어진 데이터 - ex) text + image + audio
Data quality 데이터 품질
Data ownership and distribution 데이터 소유와 분배
privacy preservation 프라이버시 보호
streaming data

저작자표시 (새창열림)

'DataMining' 카테고리의 다른 글

Generative Adversarial Net : GAN (0)	2020.06.29
양자컴퓨팅 (0)	2020.06.29
Data (0)	2020.04.19
Data 1 (0)	2020.04.18

ABOUT ME

Develop Log Develop Log

'DataMining' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'DataMining' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바