본문 바로가기
Work_Praciatal Competence/05_Certificate

[ADsP 정리] 2과목 데이터 분석기획

by 스타트업_디벨로퍼 2021. 2. 8.

2-1. 데이터 분석 기획의 이해

  • 분석기획의 방향성 도출

    1. 분석 기획의 특징

      분석기획이란

      실제 과제수행에 앞서 수행 과제 정의하고 결과를 도출 할 수 있도록 이를 철저하게 관리 할 수 있는 방안을 사전에 계획하는 일련의 작업.

    2. 데이터 사이언티스트의 역량

       

      • 수리/통계적 지식
      • it정보기술
      • 해당 비즈니스에 대한 이해
    3. 분석 대상과 방법

      • 분석의 대상과 분석의 방법에 따라서 4가지 방법으로 나누어진다.
      • 특정 분석 주제를 대상으로 진행 할 경우에도, 분석 주제 및 기법 특성상 4가지 유형을 넘나들면서 분석을 수행한다.

       

      • optimization(최적화) , insight(통찰), solution(해결), discovery(탐색 혹은 발견)
      • 한국말로도 알아놓자!
    4. 목표 시점 별 분석 기획 방안

      • "과제 중심 접근방식"과 "장기 마스터 플랜 방식"으로 나눈다

       

      • 의미 있는 분석을 위해서는 분석기술, IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성, 의사소통이 중요하다.
    5. 분석 기획시 고려사항

      • 가용데이터에 대한 고려가 필요.
      • 적절한 활용방안과 유즈케이스 탐색
      • 장애 요소들에 대한 사전계획 수립

       

  • 분석 방법론

    기업내에 데이터 분석이 효과적으로 정착하기 위해서는 체계화한 절차와 방법이 정리된 분석방법론 수립이 필수적.

    고정관념, 편향된 생각, 프레이밍 효과같은 장애요소를 넘어 데이터기반의 객관적 의사결정이 필요하다.


    • 방법론

       

    • 방법론의 적용 업무특성에 따른 모델

      1. 폭포수 모델
        • 단계를 순차적으로 진행하는 방법!
          이전 단계를 완료해야 다음 단계로 진행 될수 있다.
        • 문제가 발견될 시 피드백 과정이 수행 (기존 IT의 sw개발 방식)
      2. 프로토 타입 모델(prototype)
        • 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해 나가는 접근 방식
        • 일부분을 우선 개발하여 사용자에게 제공한다. 시험 사용후 사용자의 요구를 분석하거나 요구 정당성을 점검, 성능을 평가하여 그 결과를통한 개선작업을 시행.
      3. 나선형 모델 (spiral)
        • 반복을 통해 점증적으로 개발 하는 방식, 처음 시도하는 프잭에 적용이 용이하지만

          관리체계를 효과적으로 갖추지 못했을 떄 복잡도가 상승한다.

       

    • 방법론의 구성

      1. 단계
        • 최상위 계층으로 프로세스 그룹을 통하여 완성된 단계별 산출물 생성
        • 각 단계는 기준선으로 설정되어 관리되어야 하며, 버전관리를 통해 통제
      2. 태스크
        • 단계를 구성하는 단위 활동으로 물리적, 논리적 단위로 품질검토의 항목이 된다.
      3. 스탭
        • WBS( Work Break Down)의 워크 패키지에 해당.
        • 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스

    KDD 분석 방법론

     

    1. 데이터 셋 선택 (selection)
      • 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이
      • 데이터 베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계
    2. 데이터 셋 전처리(preprocessing)
      • 추출된 분석 대상용 데이터셋에 포함된 잡음, 이상치, 결측치 식별하고 처리하는 단계
      • 추가 데이터가 필요한 경우 데이터 선택 프로세스 재실행
    3. 데이터 변환 (transformation)
      • 정재된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소
      • 학습용 데이터와 검증용데이터로 데이터를 분리하는 단계
    4. 데이터마이닝(data mining)
      • 학습용 데이터를 이용해 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계
      • 데이터 전처리와 데이터 프로세스를 추가로 실행하여 최적 결과 산출
    5. 결과평가(interpretation / evaluation)
      • 데이터 마이닝 결과에 대한 평가, 분석목적과의 일치성 확인

    CRISP-DM 분석방법론

     

    • 최상위 레벨은 여러개의 단계로 구성되고 각 단계는 일반화 테스크를 포함. 일반하 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위.
    • ex)데이터 정제라는 일반화 테스크는 범주형 데이터 정제와 연속형 데이터 정제라는 세분화 태스크로 구분.

     


    • KDD 와 CRISP 비교

     

    빅데이터 분석 방법론
    • 빅데이터 계층적 프로세스단계

     

    1. 단계
      • 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성된다.
      • 각 단계는 기준선으로 설정하며, 버전관리 등을 통하여 통제
    2. 테스크
      • 각 단계는 여러개의 테스크로 구성
      • 각 테스크는 단계를 구성하는 단위 활동
      • 물리적, 논리적 단위로 품질검토의 항목이 될 수 있다.
    3. 스텝
      • 위 설명참조.

    빅데이터 분석 방법론 5단계

    단계 별 세부 사항 및 실제 업무

    1. 분석 기획

       

       

    2. 데이터 준비

       

       

    3. 데이터 분석

       

       

       

    4. 시스템 구현

       

    5. 평가 및 전개

       

  •  
  • CRISP-DM ( Cross Industry Standard Process for Data Mining ) : 1966년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5개 업체들(SPSS, Daimler-Chrysler, NCR, Teradata, OHRA)이 주도했다. 계층적 프로새스 모델로서 4개 레벨로 구성
  • KDD ( Knowledge Discovery in Database. ) : 1966년 Fayyd가 프로파일링 기술을 기반으로 통계패턴이나 지식을 찾기위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
  • 분석과제 발굴

    분석과제는 풀어야할 다양한 문제를 데이터 분석 문제로 변환한 후 관계자들이 이해하고 프젝으로 수행할 수 있는 과제 정의 형태로 도출

    • 크게 하양식과 상향식 방법이 존재

     

    • 문제가 주어져있는 상태에서 답을 구하는 하향식 접근 방식이 전통적으로 수행됐떤 분석과제 발굴 방식.
    • 대규모의 다양한 데이터를 빠르게 변하는 기업환경에서는 문제 자체의 변화가 심함
    • 실제 새로운 상품 개발이나 전략 등 중요한 의사결정을 할때는 하향식, 상향식 접근 방법이 혼용되어 사용!
    • 분석 가치가 높아지는 최고의 방식은 두 방식이 상호보안 관계에 있을 떼

     

    1. 하향식 접근법 (Top Down Approach)

      하향식 분석 접근법은 현황 분석을 통해 기회나 문제를 탐색하고, 해당 문제를 정의, 해결방안을 탐색한다. 그리고 분석의 타당성 평가를 거쳐 분석과제를 도출하는 과정으로 구성.

      • 문제탐색 - 하향식 접근법 1단계 (Top Down Approach)
        • 전체적인 관점의 기준 모델을 활용하여 문제를 도출
        • 기업내*외부환경을 포괄하는 비즈니스 모델외부 참조 모델이 존재한다
        • 이 단계에서는 솔루션에 초점이아닌, 문제를 해결함으로서 발생하는 가치에 중점
          1. 비즈니스 모델 기반 문제탐색

            • 기업내*외부 환경을 포괄하는 비즈니스 모델 틀을 활용하여 비즈니스 모델의 캔버스의 9가지 블록을 단순화하여 업무, 고객, 제품 단위로 문제를 발굴하고, 이를 관리하는 두가지 영역인 규제와 감사 영역과 지원 인프라 영역에 대한 기회를 추가로 도출 하는 작업을 수행한다.

               

            • 환경, 경쟁자, 보유역량, 제공시장을 넘어서 거시적 관점의 요인 동향, 니즈 등 새로운 접근을 통해 새로운 유형의 분석기회 및 주제 발굴을 수행

               

            • 외부 참조 모델 기반 문제 탐색

              • 유사, 동종 사례 벤치 마킹을 통한 분석기회 발굴은 제공되는 산업별, 업무 서비스 별 분석 테마 후보그룹을 통해 분석기회가 무엇인지에 대한 아이디어를 얻고, 기업에 적용할 분석 테마 후보 목록을 워크숍 형태의 브레인 스토밍을 통해 빠르게 도출

              • 외부 참조 모델 예시

                 

            • 분석 유즈 케이스

              • 현재의 비즈니스 모델 및 유사 동종 사례를 탐색해서 도출한 분석 기회들을 구체적인 과제로 만들기 전에 분석 유즈케이스로 표기하는 것이 필요.

              • 풀어야할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 분석문제로서의 전환 및 적합성 평가에 활용

                 

          2. 문제 정의 (Problem Definition) 단계 - 하향식 접근법 2단계

            식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계

            ex) '고객 이탈의 증대'라는 비즈니스 문젠 '고객 이탈에 영향을 미치는 요인을 식별하고 이탈 가능성을 예측' 하는 데이터 분석 문제로 변환

            • 데이터 분석 문제의 정의 및 요구사항

              • 분석을 수행하는 당사자 뿐 아니라 최종사용자 관점에서 이루어져야 한다.

               

          3. 해결방안 탐색 (Solution Search) 단계 - 하향식 접근법 3단계

            데이터 분석 문제를 해결하기 위한 다양한 방법 모색

            1. 기존 정보 시스템의 단순한 보완으로 분석 가능한지 고려
            2. 엑셀등의 간단한 도구로 분석이 가능한지 고려
            3. 하둡 등 분산 병렬 처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도있는 방안 고려

             

          4. 타당성 검토 (Feasibility Study) - 하향식 접근법 4단계

            도출 된 분석 분제나 가설에 대한 대안을 과제화 하기 위해서 다각적인 타당성 분석이 수행되어야한다.

            1. 경제적 타당성
              • 비용대비 편익 분석 관점의 접근이 필요하다. 비용 항목은 데이터 시스템, 인력, 유지보수 같은 분석 비용으로 구성된다.
              • 편익으로는 분석결과를 적용함으로써 추정되는 실질적 비용절감, 추가적 매출과 수익 등과 같은 경제적 가치로 산출된다.
            2. 데이터 및 기술적 타당성
              • 데이터 존재여부, 분석시스템 환경, 분석역량이 필요하다.
              • 분석역량의 경우 실제 프로젝트 수행시 걸림돌이 되는 경우가 많기에 기술타당성 분석시 역량 확보 방안을 사전에 수립하고 이를 효과적으로 평가하기 위해선 비즈니스 지식과 기술적 지식이 요구된다.
    2. 상향식 접근법 (Bottom Up Approach)

      다양한 원천데이터를 대상으로 분석을 수행하여 가치있는 모든 문제를 도출하는 일련의 과정이다.

       

      • 기존 하향식의 한계를 극복하기 위한 분석 방법론

        • 기존 논리적 접근법은 문제의 구조가 분명하고 문제 해결을 분석가 및 의사결정자에게 주어져있기에 솔루션을 도출 하기는 유용하지만 새로운 문제의 탐색에는 한계가 있다.
        • 이를 극복하기 위해 디자인 사고 접근법을 도입
        • why 관점이 아닌 사물을 그대로 인식하는 what 관점에서 보아야한다.
        • 디자인 사고(Design Thinking) 프로세스

         

      • 비지도 학습과 지도 학습

        1. 비지도 학습(Unsupervised Learning)
          • 일반적으로 상향식 접근 방식은 비지도학습 방법에 의해 수행.
          • 비지도 학습은 데이터 자체의 결합, 연관성, 유사성을 중심으로 데이터 상태를 표현하는 것.
          • ex) 장바구니분석, 군집분석,기술통계 프로파일링
        2. 지도학습(Supervised Learning)
          • 명확한 목적하에 데이터 분석을 실시하는것!
          • 사용자 주도하에 분석을 실시하고 지식도출이 목표
      • 시행 착오를 통한 문제 해결

        프로토타이핑 접근법 : 사용자가 요구사항이나 데이터를 정확히 규정이 어렵고 소스도 명확히 파악하기 어려울 때 일단 분석을 시도해보고 결과를 반복적으로 개선하는 방법

        하향식 접근방식은 문제가 정형화 되어있을 때 효과적이지만 프로토타입은 신속하게 해결책과 모형을 제시한다는 차이.

        • 프로토타이핑을 통한 개선

         

      • 프로토타이핑의 필요성

        1. 문제에 대한 인식 수준
          • 문제 정의가 불명확하거나 접해보지 못한 새로운 문제일 경우 프로토 타이핑의 도움을 받을 수 있다.
        2. 필요 데이터 존재 여부 불확실성
          • 데이터에관해 사용자와 분석가간의 반복적인 협의과정이 필요한대, 사전 확인이 가능하면 리스크를 줄일 수 있다.
        3. 데이터 사용목적의 가변석
          • 기존 데이터 재검토하여 데이터 사용 목적과 범위 확대
  • 분석 프로젝트 관리방안

    분석과제 관리를 위한 5가지 주요영역 범위, 품질, 일정, 리스크, 의사소통

     

     

    • Accuracy 와 Precision의 관계

     

    분석 프로젝트의 특성
    • 프로젝트의 관리방안

     

  • 분석 프로젝트는 데이터 영역과 비즈니스 영역에 대한 이해 뿐 아니라 지속적인 반복이 요구 되는 분석 프로세스의 특성을 이해한 프로젝트 관리방안을 수립하는 것이 중요하다.

2-2. 분석 마스터 플랜

  • 마스터 플랜 수립 프레임 워크

    분석 마스터 플랜 수립 개요 데이터 기반 구축을 위해서 분석과제를 대상으로 전략적 중요도, 비즈니스 성과 및 ROI,분석과제의 실행 용이성 등 적용 우선순위를 설정해야한다.

     

    • 기업에서는 중장기 로드맵을 정의하기위해 ISP를 수행한다.

    수행 과제 도출 및 우선 순위 평가

    • 우선순위 평가 및 절차 (흐름 이해하자)

      • 우선순위 평가의 경우 정의된 데이터 과제에 대한 실행 순서를 정하는 것이다.
      • 업무별 도출 된 분석과제를 우선순위 평가 기준에 평가한 뒤, 과제 수행의 선,후행 관계를 고려하여 적용순위를 조정

       

    • 일반적인 IT 프젝 우선순위 평가 예시

     

    • ROI 관점에서 빅데이터의 핵심 특징 *ROI : 투자 자본 수익율

     

    • 투자 비용요소
      • 크기 (volume)

        • 데이터 규모/양
      • 다양성(variety)

        • 데이터 종류/유형
      • 속도(velocity)

        • 데이터 생성 속도/ 처리속도
    • 비즈니스 효과 요소
      • 가치(value)
        • 분석결과를 활용하거나 실질적인 실행을 얻는 비즈니스 효과 측면의 요소.
        • 기업 데이터 분석을 통해 추구하거나 달성하고자 하는 목표가치

    데이터 분석과제 추진시 고려해야하는 우선순위 평가 기준

    1. 시급성

      • 전략적 중요도와 목표가치에 부합하는지에 따른 시급성이 가장 중요
    2. 난이도

      • 데이터를 생성, 저장, 가공, 분석하는 비용과 현재 기업의 분석 수준을 고려한 난이도 역시 중요한 기준.
      • 데이터 분석의 적합성 여부를 본다.

       

    포트폴리오 사분면 분석 (기출자주나옴)

    이행계획 수립

    1. 로드맵 수립

      1. 분석과제에 대한 포트폴리오 사분면 분석을 통해 과제 1차우선순위 결정
      2. 분석 과제별 적용범위 및 방식을 고려하여 최종적인 실행 우선순위를 결정한 후 단계적 구현 로드맵 수립
      3. 단계별 추진하고자하는 목표 정의
      4. 추진과제 별로 선,후행 관계 고려해 단계별 추진내용 정렬

       

    2. 세부 이행계획 수립

      • 데이터 분석체계는 고전적인 (폭포수)방법도 있지만 반복적인 정련을 통해 완성도를 높이는 방식을 주로 사용한다.
      • 전체가 아닌 일부, 특히 데이터 수집, 분석데이터 준비 하는 단계를 순차 진행하고, 모델링 단계는 반복적으로 수행하는 혼합형을 많이 적용하며, 세부 일정계획도 수립해야한다.

       

      • 세부추진 일정계획 예시

       

  •  
  • 분석 거버넌스 체계 수립

    거버넌스 체계
    • 구성요소

     

    데이터 분석 수준 진단

     

    • 수준 진단 목표 2가지
    1. 기업의 현재 수준을 명확히 이해하고 수준진단 결과를 토대로 미래의 목표 수준을 정의한다.
    2. 분석을 위한 기반, 환경이 다른 곳과 비교해 어느 수준이고 경쟁력을 위해 무엇을 해야하는지에 대한 개선방안을 도출
    • 분석 준비도

      • 목표: 기업의 데이터 분석 도입 수준 파악
      • 구성: 6가지

       

      • 영역별로 새부 항목에 대한 수준 파악,
      • 진단 결과 전체 요건 중 수준 충족시 분석업무 도입
      • 못할시 환경 조성
    • 분석 성숙도 모델

     

    • 분석 수준 진단 결과
      • 기업의 현재 분석 수준을 객관적으로 파악
      • 경쟁사의 분석 수준과 비교하여 분석 경쟁력 확보 및 목표설정
    • 분석관점에서 사분면 분석

     

    분석 지원 인프라 방안 수립

     

    • 플랫폼

      • 단순 응용프로그램이 아닌 서비스를 위한 응용 프로그램이 될 수 있는 기초를 이루는 시스템
      • 분석플렛폼이 구성됐을 때 시스템 추가가 아닌 서비스를 추가적으로 제공하는 방식으로 확장성을 높인다.
      • 분석플랫폼 구성요소

       

      데이터 거버넌스 체계 수립
      1. 데이터 거버넌스의 개요

        전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임등의 표준화 된 관리체계를 수립하고 운영을 위한 프레임워크, 저장소를 구축

        마스터, 메타, 데이터 사전 은 데이터 거버넌스의 중요 관리 대상

      2. 거버넌스 구성요소

        • 구성요소인 원칙(Principle), 조직(Organization), 프로세스(Process)는 유기적으로 조합하고 효과적으로 관리
          1. 원칙
            • 데이터를 유지 관리하기 위한 지침과 가이드
            • 보안, 품질 기준, 변경관리
          2. 조직
            • 데이터를 관리할 조직의 역할과 책임
            • 데이터 관리자, 데이터베이스 관리자, 아키텍트
          3. 프로세스
            • 데이터 관리를 위한 활동 체계
            • 작업절차, 모니터링 활동
      3. 체계

         

        1. 데이터 표준화
          • 표준화는 데이터 용어설명, 메타구축, 사전구축, 규칙명명으로 구성
          • 규칙은 매핑상태를 유지해야한다
        2. 데이터 관리체계
          • 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를포함한 메타,사전의 관리 원칙을 수립
          • 프로세스를 상세하게 만들고 담당자와 역할을 잘 분배하자
          • 잘못하면 돈폭탄 맞음 (데이터 관리문제)
        3. 데이터 저장소 관리
          • 전사 차원의 저장소
          • 저장소는 워크플로우 및 관리 응용 소프트웨어를 지원한다.
        4. 표준화 활동
          • 데이터 거버넌스를 구축 후 표준 준수 여부를 지속 점검
          • 개선활동을 통한 실용성업!
    데이터 조직 및 인력 방안 수립

    분석 조직은 기업의 경쟁력 확보를 위해 데이터 가치를 발견하고 비즈니스를 최적화하는 목표를 갖고 구성되어야한다.

     

    • 조직 구성시 고려사항

       

      • 3가지 조직 구조

       

      • 분석조직의 인력구성

       

    분석과제 관리프로세스 수립
    • 과제관리 프로세스

     

    분석 교육 및 변화 관리

     

  • 경영층의 사실기반 의사결정과 지속적인 변화 관리를 계획 하고 수행하여야한다. 추진기로 접어들기 위해서는 분석 관련 교육 미 마인드 육성을 위한 적극적인 변화 관리가 필요하다.
  • 마스터플랜이 수립되고 초기 데이터 분석과제가 수행되는경우, 분석조직이 수행할 주요 역할 중 하나가 분석과제의 기획 및 운영!

  • 기업의 비즈니스도 많은 변화를 겪고있다. 이러한 비즈니스 변화르 인식하고 경쟁력을 확보하는 수단으로 전문 분석조직의 필요성이 대두되고있다.

  • 분석과제 단위별 별도의 분석 시스템을 구축하는 경우, 분석 마스터 플랜을 기획하는 단계에서부터 장기적이고 안정적으로 활용할 수 있는 플랫폼 구조를 도입하는 것이 적절하다.
  • 거버넌스를 위해 선행되어야할 1순위 기업들은 분석의 도입 여부와 활용에 명확한 분석 수준을 점검할 필요가 있다. 분석 수준 진단을 위한 분석 준비도, 분석성숙도가 있다.
  • 기업에서 데이터를 이용한 의사결정이 강조될수록 데이터 분석과 활용을 위한 체계적인 관리가 중요해진다. 조직내 분석 관리체계를 수립해야하는 분석이 기업 문화로 정착하며 분석업무를 지속적으로 고도화 하기 위헤서이다.
반응형