본문 바로가기

전체 글252

[ADsP 정리] 3과목 5장 정형 데이터 마이닝 1절 데이터마이닝, 2절 분류분석 데이터 마이닝 가. 개요 데이터마이닝은 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. 나. 통계분석과의 차이점 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터 베이스의 데이터로 부터 의미있는 정보를 찾아내는 방법을 통칭한다. 다. 종류 라. 사용 분야 병원에서 환자 데이터를 이용해서 해당 환자에게 발생 가능성이 높은 병을 예측 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야 하는지를 결정 고객 데이터를 이용해 해당 고객의 우량/불량을 예측해 대출적격 여부 판단 세관 검사에서 입국자의 이력과 데이터를 이용해 관세물품 반입 여부를 예측 마. 데이터마이닝의 최근환경 데이터마이닝의 도구가 다양하고 체계화되어 .. 2021. 2. 8.
[ADsP 정리] 3과목 3장 데이터 마트 최소 2문제 이상 출제 됩니다. 목표 데이터 마트를 구성하는 요약변수와 파생변수 구분 reshape 패키지를 활용한 데이터마트 생성 sqldf 패키지와 plyr 패키지를 활용해 데이터를 핸들링 data, table 이해 3-3-1. 데이터 변경 및 요약 데이터마트 데이터 웨어하우스와 사용자 사이의 중간층에 위치 한 것으로, 하나의 주제 또는 부서 중심의 데이터 웨어하우스라고 할 수 있다. CRM관련 업무 중 핵심은 고객 데이터 마트 구축하는 것이다! 데이터 마트의 구축 여부에 따라 분석효과 차이가 크다 (최신 분석기법들을 사용하기에 분석가들 간 편차가 덜하기 때문이다.) 데이터 자료 변수 변환 (요약변수와 파생변수) 요약변수 수집 된 정보를 분석에 맞게 종합한 변수이다. ex) 총 구매 금액, 금액, 횟.. 2021. 2. 8.
[ADsP 정리] 3과목 1~2장 R 프로그래밍 기초 1. R 소개 1. 분석환경의 이해 통계패키지 R 오픈소스 프로그램으로 통계, 데이터 마이닝과 그래프를 위한 언어 ⇒ 통계 계산과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경 다양한 최신 통계 분석 및 마이닝 기능을 R 플랫폼에서 제공 전 세계적으로 사용자들이 다양한 예제를 공유 뉴질랜드 오클랜드 대학의 로스 이하카와 로버트 젠틀맨에 의해 시작되어 현재는 R코어 팀이 개발하고 있다 R은 GPL(General Public License)하에 배포되는 S프로그래밍 언어로 구현되어 GNU S라고도 한다 다양한 최신 알고리즘을 제공해 다양한 시도 가능 기능들의 자동화가 비교적 쉬움 분석 도구의 비교 R의 특징 표준 플랫폼(S언어 기반) 모든 운영체제에서 사용 가능(맥, 리눅스, 윈도우) 메모리 저장방식 객.. 2021. 2. 8.
[ADsP 정리] 2과목 데이터 분석기획 2-1. 데이터 분석 기획의 이해 분석기획의 방향성 도출 분석 기획의 특징 분석기획이란 실제 과제수행에 앞서 수행 과제 정의하고 결과를 도출 할 수 있도록 이를 철저하게 관리 할 수 있는 방안을 사전에 계획하는 일련의 작업. 데이터 사이언티스트의 역량 수리/통계적 지식 it정보기술 해당 비즈니스에 대한 이해 분석 대상과 방법 분석의 대상과 분석의 방법에 따라서 4가지 방법으로 나누어진다. 특정 분석 주제를 대상으로 진행 할 경우에도, 분석 주제 및 기법 특성상 4가지 유형을 넘나들면서 분석을 수행한다. optimization(최적화) , insight(통찰), solution(해결), discovery(탐색 혹은 발견) 한국말로도 알아놓자! 목표 시점 별 분석 기획 방안 "과제 중심 접근방식"과 "장기 .. 2021. 2. 8.
반응형