데이터 마이닝 종류및 요약

Posted 01 3, 2015 14:12, Filed under: BigData/DataAnalysis



# 데이터 마이닝 종류및 요약



1. 분류와 계층 확률 추정(Class Probability Estimation)
각 개인이 어느 계층에 속할지를 예측하는 것으로, 일반적으로 계층은 상호 배타적이다.
분류의 기준은 "메가텔 고객 중 마케팅 제안을 받아들일 가능성이 있는 고객은?"과 같은 질문에 대해 수용하는 계층과 거부하는 계층으로 나뉠 수 있다.
분류 작업을 하는 동안 데이터 마이닝 절차는 개인이 어느 계층에 속할지 결정하는 모델을 생성하는데, 이 과정에 밀접하게 연관된 작업을 점수화(Scoring) 또는 계층 확률 추정이라고 부른다.
개인에게 점수화 모델(Scoring Model)을 적용하면 개인이 속할 계층을 결정하는 대신 개인이 어느 계층에 속할 확률 또는 가능성을 나타내는 정량화된 값을 점수로 계산한다.
고객 제안의 경우, 점수화 모델은 각 개인을 평가해 마케팅 제안을 받아들일 가능성을 점수로 계산할 수 있다.
분류와 점수는 긴밀한 관계를 가지며, 일반적으로 분류 모델이 점수를 계산하도록 또는 점수와 모델이 분류하도록 변경할 수 있다.


2. 회귀 분석(가치 추정 Value Estimation)

각 개인에 대한 특정 변수의 수치를 측정하거나 예측한다.
회귀 분석에는 "이 고객이 서비스를 얼마나 사용할까?"와 같은 질문을 예로 들 수 있다.
여기서 예측할 속성(변수)은 서비스 사용량이며, 다른 유사한 개인과 그들의 사용량 이력을 살펴보고 모델을 만들 수 있다.
즉 회귀 분석 절차는 어떤 개인에 대한 특정 변수의 값을 추정하는 모델을 만든다.
회귀 분석은 분류와 관련은 있지만 서로 다르다.
쉽게 말해 분류는 어떤 일이 일어날지 '여부'를 예측하는 것이고, 회귀 분석은 어떤 일이 '얼마나 많이' 일어나는지 예측하는 것이다.


3. 유사도 매칭(Similarity Matching)
알려진 데이터에 기반해 비슷한 개인을 찾아낸다.
비슷한 개체를 찾아내기 위해 직접 유사도를 매칭해볼 수 있다.
예를 들어 가장 가능성 있는 고객에게 영업력을 집중하기 위해 IBM은 자사의 기존 고객사와 유사한 회사를 찾아내는 데 관심을 가지며, 기업의 특성을 알려주는 '기업 설명(Firmographic)' 데이터에 기반해 유사도 매칭 모델을 적용할 수 있다.
유사도 매칭은 고객에게 제품을 추천할 때 사용하는 가장 인기 있는 방법 중 하나로, 선호하거나 구매한 제품의 관점에서 현재 고객과 유사한 사람들을 찾아내는 것이다.
유사도 매칭 방법은 분류, 회귀 분석, 군집화와 같은 여러 데이터 마이닝 작업을 해결하기 위한 기반이 된다.


4. 군집화(Clustering)
특정 목적이 없는 상태에서 유사도에 따라 개인들을 묶는다.
군집화는 "우리 고객들이 자연스럽게 그룹으로 묶이는가?"와 같은 질문을 예로 들 수 있다.
군집화는 문제 영역에 대해 기초 조사를 수행할 때 어떤 그룹이 자연스럽게 만들어지는지를 알려주고, 그룹이 존재한다면 다른 데이터 마이닝 작업을 해볼 필요가 있다는 점을 알 수 있기 때문에 매우 유용하다.
또한 "어떤 제품을 개발해야 할까? 고객 대응팀(또는 영업팀)을 어떤 구조로 만들어야 할까?"와 같은 질문에 대한 의사 결정을 할 때 필요한 입력 데이터를 만들기 위해 사용되기도 한다.


5. 동시 발생 그룹화(Co-occurrence Grouping)
빈발 항목 집합 마이닝(Frequent Itemset Mining), 연관성 규칙 발견(Association Rule Discovery), 장바구니 분석(Market-Basket Analysis)이라고도 알려졌으며, 개체에 관련된 거래에 기반해 개체 간의 연관성(Association)을 찾아낸다.
동시 발생 그룹화에는 "일반적으로 어떤 상품을 함께 구매하는가?"와 같은 질문을 예로 들 수 있다.
군집화는 객체의 속성에 기반해 객체 간의 유사도를 찾아내지만 동시 발생 그룹화는 객체들이 같이 거래되는지의 여부에 따라 객체의 유사도를 살펴본다.
예를 들어 수퍼마켓에서 구매 기록을 분석해보면 다진 고기와 양념장을 함께 사는 경우가 생각보다 많다는 것을 알 수 있다.
이런 사실을 알게 된 후 어떻게 대응할지 결정하려면 어느 정도 창의성이 필요하긴 하지만 판촉, 제품 진열, 또는 제품 패키지와 정도는 쉽게 생각해낼 수 있다.
동시 구매 상품은 장바구니 분석이라고도 알려져 있는 그룹화의 일반적인 형태다.
어떤 추천 시스템은 한 사람이 구입한 여러 책을 찾아내 "X 책을 구입한 고객은 Y 책도 구입한다"와 같이 친밀도 그룹화(Affinity Grouping)를 수행하기도 한다.
동시 발생 그룹화를 수행하면 함께 발생한 항목들에 대한 설명을 볼 수 있는데, 이 설명에는 동시 발생 빈도와 같은 통계 정보가 포함된다.


6. 프로파일링(Profiling)
행위 기술(Behavior Description)이라고도 부르며 개인, 그룹, 전체의 전형적인 행위의 특징을 찾아낸다.
프로파일을 파악하기 위해 "이 고객 그룹은 일반적으로 휴대폰을 얼마나 사용하는가?"와 같은 질문을 예로 들 수 있다.
행위에 대한 설명이 간단하지 않을 수도 있는데, 가령 휴대폰 사용량을 프로파일링 하려면 심야 및 주말 사용량에 대한 평균, 국제 전화 사용량, 로밍 요금, 문자 사용량 등 설명해야 할 내용이 복잡하다.
일반적으로 행위는 전체 사용자, 특정 소규모 그룹, 또는 개인별로 설명할 수 있다.

종종 프로파일링은 사기 탐지(Fraud Detection) 및 컴퓨터 시스템 침입(가령 누군가 아이튠즈 계정에 침입하는 경우등)에 대한 감시와 같은 비정상 행위 탐지를 수행하는 애플리케이션을 구현하기 위한 행위 표준을 설정하기 위해 사용되기도 한다.
예를 들어 어떤 사용자가 신용카드로 주로 구매하는 컨텐츠를 알고 있다면 신용카드로 새로 구매한 컨텐츠가 이 프로파일에 해당하는지를 판단하여, 불일치하는 정도를 점수화해서 너무 높으면 경고를 발생 시킬 수 있다.


7. 연결 예측(Link Prediction)
데이터 항목 간에 연결되어 있어야 하는지를 판단하고 연결의 강도를 추정해 데이터 간의 연결을 예측한다.
연결 예측은 "고객님과 영희님은 10명의 친구를 공유하고 있습니다. 영희님과 친구를 맺으시겠습니까?"와 같은 질문처럼 소셜 네트워크 서비스에서 쉽게 볼 수 있다.
연결 예측은 연결의 강도를 추정할 수도 있다.
예를 들어 고객에게 영화를 추천할 때 고객과 그 고객이 보았거나 평가했던 영화 간에 그래프를 그릴 수 있다.
그래프 속에서 고객과 영화 간에는 존재하지 않지만 존재 가능성이 높다고 예측된 연결을 찾아낼 수 있는데, 이 연결이 영화를 추천하는 근거가 된다.


8. 데이터 축소(Data Reduction)
많은 데이터를 가져와 이 데이터에 있는 중요 정보를 상당수 담고 있는 더 작은 데이터 세트로 바꾼다.
데이터 세트가 작아지면 처리하기 더 쉬워질 뿐만 아니라 정보를 찾아내기도 더 쉬워진다.
예를 들어 관객이 감상한 영화 기록을 담고 있는 엄청난 데이터 세트를 관객의 선호도(예를 들면 좋아하는 장르)를 보여줄 수 있는 훨씬 더 작은 데이터 세트로 축소할 수 있다.
일반적으로 데이터를 축소하면 정보는 손실되지만 데이터에 대한 통찰력은 얻을 수 있는 장점이 있다.


9. 인과 모델링(Causal Modeling)
어떤 사건이나 행위가 실제로 다른 행위에 영향을 미치는지 파악할 수 있게 해준다.
예를 들어 예측 모델링을 이용해 고객에게 타겟 광고를 하고 인과 모델링을 통해 타겟 고객층이 실제로 더 높은 비율로 구매했는지를 관찰한다.
구매율이 높아진 원인이 광고 때문이었을까? 아니면 예측 모델이 어쨌든 구매할 의사가 있었던 고객을 우연히 잘 찾아낸 것일까?
인과 모델링 기법을 사용하려면 관찰 데이터에서 인과 관계를 이끌어낼 수 있는 정교한 방법뿐만 아니라 임의의 통제된 실험(Randomized Controlled Experiment)(예를 들면 A/B 테스트)을 수행하기 위해 데이터에 상당한 투자를 해야 한다.
일반적으로 실험 방법과 관찰 방법 모두 '반사실적(Counterfactual)' 분석이라고 볼 수 있다.
왜냐하면 이 방법들은 '처리' 이벤트가 일어나는 경우와 일어나지 않는 경우의 차이점을 비교 분석하기 때문이다(예를 들어 특정 개인에게 광고를 보여주는 행위를 분석할 때, 보여주는 행위와 보여주지 않는 행위가 둘 다 동시에 일어날 수는 없다).

어느 경우든 데이터 과학자는 인과 관계에 대한 분석 결과를 입증하기 위해 반드시 필요한 정확한 가정(언제나 그런 가정이 있다)을 인과 결과 분석에 조심스럽게 포함시켜야 한다.
인과 모델링을 수행할 때 기업은 가정 사항을 줄이기 위해 투자를 늘리거나 주어진 가정이 충분히 타당하다고 확신할 수 있어야 한다.
통제된 무작위 실험을 아무리 조심스럽게 한다고 해도 가정이 올바르지 않으면 인과 분석 결과는 틀릴 수 있다.
의학계에서 말하는 '위약 효과(Placebo Effect)'는 조심스럽게 준비한 무작위 실험에서 가정을 간과함으로써 발생되는 여러가지 문제점을 잘 보여준다.




도서 : 비즈니스를 위한 데이터 과학




※ 위 내용은, 여러 자료를 참고하거나 제가 주관적으로 정리한 것입니다.
   잘못된 정보나 보완이 필요한 부분을, 댓글 또는 메일로 보내주시면 많은 도움이 되겠습니다.
01 3, 2015 14:12 01 3, 2015 14:12


Trackback URL : http://develop.sunshiny.co.kr/trackback/1025

Leave a comment

« Previous : 1 : ... 24 : 25 : 26 : 27 : 28 : 29 : 30 : 31 : 32 : ... 648 : Next »

Recent Posts

  1. HDFS - Python Encoding 오류 처리
  2. HP - Vertica ROS Container 관련 오류...
  3. HDFS - Hive 실행시 System Time 오류
  4. HP - Vertica 사용자 쿼리 이력 테이블...
  5. Client에서 HDFS 환경의 데이터 처리시...

Recent Comments

  1. 안녕하세요^^ 배그핵
  2. 안녕하세요^^ 도움이 되셨다니, 저... sunshiny
  3. 정말 큰 도움이 되었습니다.. 감사합... 사랑은
  4. 네, 안녕하세요. 댓글 남겨 주셔서... sunshiny
  5. 감사합니다 많은 도움 되었습니다!ㅎㅎ 프리시퀸스

Recent Trackbacks

  1. prefab steel buildings prefab steel buildings %M
  2. Mysql - mysql 설치후 Character set... 멀고 가까움이 다르기 때문 %M

Calendar

«   09 2019   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

Bookmarks

  1. 위키피디아
  2. MysqlKorea
  3. 오라클 클럽
  4. API - Java
  5. Apache Hadoop API
  6. Apache Software Foundation
  7. HDFS 생태계 솔루션
  8. DNSBL - Spam Database Lookup
  9. Ready System
  10. Solaris Freeware
  11. Linux-Site
  12. 윈디하나의 솔라나라

Site Stats

TOTAL 2683604 HIT
TODAY 438 HIT
YESTERDAY 438 HIT