본문 바로가기
Identity_Developer&Analyst/02_Data Analyst

[201209] Kosen Online Open Seminar

by 스타트업_디벨로퍼 2020. 12. 18.

한기용님

 

 

 

SI 개발

검색 엔진 개발, 웹페이지 개발,

2012년 이후 작은 스타트업 → 데이터팀 설립, 데이터 인프라 구축, 데이터 분석 수행, 데이터 트레이닛 셋 기반 데이터 모델링,

 

coursera 의 데이터가 Udemy보다 아쉬움

 

Goal of Data Organization

웹/앱 만이 아니라 3rd party에서도 온다

데이터 웨어하우스에 여러 데이터들을 정제하고 올리는 것! (데이터 엔지니어→ 데이터 인프라 구축)

회사에 필요한 모든 데이터 모아놓은 곳 → 데이터 웨어하우스→ OLTM , transaction → scalable datawarehouse (클라우드 ,구글 빅궈리, 스노우플레이크, 아마존 웹서비스 -레드쉽? , 하둡 기반 오픈스파크?)

회사 작은 것은 큰 문제가 안된다!

 

 

/ 데이터 조직의 성장과정을 볼때 데이터 웨어하우스 설립이 선행되어야 함. 부가가치 생성

순서가 반대가 되면 발전하지 못함.

→ 1번 먼저(선행 투자), ROI를 따졌을때, 1번을 하지 않게 될 수가 있다. → 인프라 없이 데이터 하거나 데이터 과학자 뽑으면, 한군데 모여있지 않아서 힘을 못쓴다!!

→ 데이터 중앙으로 수집하는 일들을 해나가야 한다!! → 데이터 분석을 해주는 사람들 → 데이터 애널리스트 → 수집된 데이터를 가지고 지표를 가져와야함( k performance index) → active 사용자의 컨택? → dashboard 만들어야 함. → 데이터와 관계된 질문을 하는 것이 데이터 분석가 → 돈을 쓰고 나서 roi 를 분석하는 것 → 데이터 애널리스트

 

 

데이터를 가지고 지표를 만들 수 있다면 ideal하게 마지막 step은 데이터 과학자 뽑아서 트레이닝셋 기반으로 예측 모델 만들어서 과거를 기반으로 미래를 예측해야한다. 두번쨰 정의한 KPI를 개선해야한다.

 

 

그동안의 경험을 기반으로 볼때 위와 같은 순서가 적합하다. → 이 루프를 기반으로 피드백이 생기면서 각 단계별로 발전을 하게 된다.

3번의 예 : 추천 시스템 3번의 데이터 과학자 → external facing → product , service 개선

 

 

데이터 과학자는 제품에 대해서는 잘 알지 몰라도 비즈니스에 대해서는 모르는 경우가 많다. 회사가 어떤 비즈니스를 하고 어떻게 돈을 벌고 도메인의 특성

의사결정론에 도움을 주고, 자동화를 하고, 사용자의 인식을 개선하는 3번의 과정이

신뢰할 수 있는 데이터로 회사의 부가가치를 만들자.

→ 데이터 자체로 바로 돈을 벌수는 없다.

 

 

삼성전자 반도체는 데이터 잘 사용하면 공정 프로세스 최적화해서 이익을 높일수가 있다. (부가가치 발생)

회사마다 데이터 자체로 버는 것도 있지만 (이경우는 레버리지 아님), 아닌 것도 있다. → 데이터를 가지고 돈을 번다는 것을 증명하지 못한다면 데이터팀을 종속시킬 수 없다.

레버리지를 기반으로 부가가치를 만든다는 것!!

→ 이를 기반으로 미션 스테이트먼트가 있었다.

 

 

높은 품질의 데이터를 통해서, 적정하게 제공함으로써, 결정을 쉽게 내릴 수 있게 해준다. 임원, 팀원, 리더 → 의사결정에 있어서 데이터가 도움을 주게 한다. → 이를 위해 지표가 알맞게 만들어지면서 대시보드 형태로 시각화가 되어 접근이 쉽게

data informed decision (나는 내 생각이 있고, 최종 결정을 함에 있어 데이터를 참조하겠다. ↔ data driven decision (데이터가 말하느 대로 하겠다.) → 미래가 과거와 똑같으면 이게 맞음.

 

 

물리학자들이 잘한다. → 가설을 세워서 모델을 만들고 모델을 검증하는 것들 → 데이터과학자로의 전환이 있음. → 너무 잘할려고 해서 시간을 너무 쏟아서 효율이 안 나온다. → 연구자적인 기질이 다분하다!

 

 

머신러닝 일부만 하는 기술이었는데, 이제는 모두가 할 수 있게 되어 있다.

  1. 내가 풀고 싶은 문제의 데이터가 있는냐?
  2. 문제를 풀고싶은 욕망/열정이 크냐? → 어느정도 경험을 가지고 잘 푸는 것을 보았음

 

긴급한 질문들을 받게 된다. → 깊게 볼 기회가 없다. → 퍼포먼스가 불분명하다. → 커리어 패스에 대한 회의감도 있다. → 회사 잘 그만둔다

 

 

데이터 웨어하우스 관리 / 데이터 들어오는 거 모아주는 사람

Extract Transfrom Loading → ETL → SaaS (이렇게 되면 코딩 안해도 됨) → 서버 구축할 필요는 없어짐.

 

 

 

production 환경에서 돌아가야하는데, 유기적인 관계가 없으면 충돌이나 지연이 생긴다.

→ 많은 데이터 과학자는 R을 쓴다. / feature 계산 / deploy 되는 호나경

야후 문제 → 엔지니어 / 데이터 과학자 (과학자와 엔지니어 조직이 다른 조직으로 분리되면서, 대표까지도 가게 된다.... 야후를 망하게 만든 원인....)

→ 하나의 팀으로 운영하는 것이 중요하다!!

→ Airbnb

 

→ 가장 이상적이며 조화로운 경우

Case Study

장례업, 50퍼센트의 경우 화장을 하게 된다. → 화장하는 비율이 아주 올라갔다. → 문제 : 1) 빠르게 안 돌아간다. 과정 매우 복잡해서 2주에서 한달 정도가 걸린다. 어떤 프로세스인지 모르고 2) 가격이 매우 비싸다. (바가지) → 결혼/장례업 경황이 없다보니 찾아서 전화하기 어렵다. → 90퍼센트 이상 돈 받는다. → 화장 비용이 300 , 매장이 1000마넌

영국도 동일한 문제 → 마케팅이 매우 중요함 → 데이터 팀이 할 수 있는 것은 어떤 채널에 돈을 쓰는 것이 좋은지 데이터를 뽑아주는 게 중요하다!!!! → Data flow에서 했던 것을 하게 되었다.

→ 돈을 쓴것으로부터 몇명이 보았고, 몇명이 실제로 결제했고, 몇명이 회원가입했는지? → 비싼 것일수록 오래 걸린다.

→ 처음에 온 마케팅 채널 / 나중에 온 마케팅 채널 → first touch / last touch / multi touch → 마케팅 팀에게 데이터 기반 자동화를 제공해서 속도와 정확성을 증대 시켰다

2018~2019 : 1500억 투자 → 구글 클라우드 : big query

스쿠터라는 것이 안드로이드 디바이스다. → 모터, 배터리,GPS, 카메라, 센서, 와이파이

→ 데이터를 계속 발생시킨다 → 구글 클라우드로 들어오는 것을 bigquery로 온 것을 분석함 IoT 솔루션

→ 데이터를 쉽게 읽고, 별도의 개발 없이 쓰고 있다.

→ 데이터를 이용해서

  1. 배터리 소진되면 영업을 못한다. → 인건비 로스가 크다. → 배터리 모니터링 중요 → 센서 기반으로 operation 팀에게 얘기하고 → 알림 뜨고 라우팅한다

  2. 어디에 두는 것이 최적일까?

회사에서 돈을 많이 쓰는 게 누군가?

그사람들의 변동이 있는가?

2~3달 쓴사람들이 없어진다. (turn rate) → survey → 직접 사는 게 낫겟다!! → 연습하고 사는게 낫겠다. → 샌프란시스코에서 스쿠터타면 된다!!

 

 

 

실제로 무엇을 보여주는 지가 좋은지가 어렵다. → 마케팅 끝나고정리도 안된다. → 프레임워크가 있어야한다. → 모두가 동의하는 측정 matrix 가 중요하다!

머신러닝 기반으로 테스트 하는 것에 대해 부정하지 않는다

 

 

 

카드로 결제하게 되는데, →결제 정보 넘겨서 트레이닝 셋 운영함 Fraud payment → 중국이 대부분

애완동물 케어를 비디오콜로!

원격 환자 모니터링 → 질병 두개 있는 사람들

B2B2C → 환자 , 보험사, 병원 → 병원비가 매우 비싸다 병원들과 제휴, 임상 실험, 비용 감소 모델

→ 오른쪽 앱을 제공하고 3가지 센서(체중계, 혈압, sp, 당뇨) → 모바일 폰으로 블루투스 연결됨. → 일주일에 두세번만 측정하고 → 서버로 넘겨오면 알고리즘 넘어와서 → 지금, 과거 데이터 기반으로 알람 뜨게 할지

→ 의료지식있는 사람들이 의사에게 말한다.

→ intervation (아무 문제 없다. 입원해라. 약이 잘못됐다, 약을 안먹는다.

성공하는 스타트업이 환자의 문제를 개선하느냐 마느냐의 차이

서비스가 개선하는 것을 피드백을 받게 해야한다. → 센서 파는 회사는 센서 팔고 끝이다. → 데이터 수집하는 곳은 대체시킬 것이다

→ 애플 워치, 건강 예측, → 바이오/ 헬스케어 승자는 애플이 될것이다

 

 

데이터가 비즈니스의 차이를 가져와야하고, 돈을 벌어야한다.

데이터 팀 리더는 연결관계를 만들어야 한다. / 인프라를 만들어야한다.

 

 

현재 제조업의 C#기반 ERP개발자인데, DataTeam의 멤버로 이동할려면 어떤것들을 준비하고 배원야 할까요?

데이터 분야로 옮기고 싶은 사람들의 대다수가 이 분야가 뜨니까, 불안감이 있어서

어떻게 의미가 있는지 어떻게 찾아보면 어떨지, 이런 분야로 관심이 있다면 처음부터 데이터 사이언티스트는 어려우니 데이터 엔지니어에서 단계별 전환하는 것이 목표

작은회사로 가면 다할수 있기도 하다. 쉽지 않을수 있다. 내가 갖고 있는 것을 버리지 않으면, train 해야 한다.

 

 

안녕하세요 바이오가 융합된 공학에서 센서 제작 등의 연구직 관련해서도 딥러닝의 기본 틀 정도는 사용할 수 있는 역량이 필요할까요?

저라면, 재밌다라고 한다면, 어떻게 하면 딥러닝을 쓸수 있을까 의미있게 만들어볼까 고민해보고 하는 것

한국사람들이 뜨는 것 다 따라갈려고 하고, 불안감이 있다. → 내가 있는 곳에 초점을 맞추는 것이 중요하다!! 어떻게 역량을 쓸지

 

 

의미있는 분석, 프로젝트의 기획에 잇어 데이터의 역할이 중요할 듯한데요. 빅데이터 분야의 모델링.. 논리적, 물리적, 개념적, 물리적 모델링에 대해서도 고민해야하나요? 데이터분야도 아키텍처가 중요할 듯한데요.

데이터 수집이 첫번째다. 한 큐에 하는 것이 어렵다. iteration 형태, not waterfall

부족한 것 어떻게 수집할지, 다음에 어떻게 또 받을지 고민하기!!

데이터 모델링이 중요하다. → 어떤 데이터를 원하고 수집할지, 사용자 환자 정보 등→ 성별, 나이, 키, 몸무게, 각 질병, 현재, 12개월간의 몸무게 변화 등 → 어떤 정보 필요한지 생각해보고 어떻게 수집할지 고민하기!!!

 

 

강연 매우 잘들었습니다. 데이터 관련 특강을 못해도 10개이상은 들었는데,이렇게 자세하게 알려주시고, 본인의 경험을 이렇게 공유해주면서 케이스 스터디로 보여주셔서 더더욱 감사드립니다.

사실 이 데이터 과학(엔지니어, 애널리스트를 포함하여)이란 분야 자체가 생긴지 그래도 이제는 과도기 측면이란 생각이들고, 연사님 사례처럼 미국에서는 아주 잘 구축된 상태라면, 한국은 이제서야 대기업측에서도 데이터팀을 구성하고 있고, 카카오,네이버와 같은 IT 대기업에서도 데이터 사이언티스트를 적극 채용하고 있지만,

비즈니스 차원에서는 추천시스템(맛집, 노래, 광고 등),등 생각보다 고도화되지 않은 기술이거나, 겉으로는 머신러닝을 한다고 하는데 막상 보면 그렇지도 않은 거 같습니다.

그래서 질문드리고 싶은 부분은

  1. 채용자, 데이터 팀장 입장에서 보시게 된다면, 데이터 사이언티스트를 준비하는 사람이 말씀하신 data flow를 보여주는 포트폴리오를 구축하게 되는 경우, 어떤 것을 보여줘야 차별점이 있는지 얘기해주시면 감사하겠습니다채용자 입장에서, 데이터 과학자는 경험자를 찾게 된다. 대학교 갓졸업, 경험 없는 사람은 어렵다. 데이터 분석가 → 데이터 사이언티스트 전환 (step by step) 실제 경험이 없으면 모르겠다...한가지로 설명드리긴 힘들지만 데이터 과학자는 경험이 중요하다! 어디서는 시작하고 전환을 하면서 모델링하는 게 좋지 않을 까 싶음.
  1. 사실 최종 목표는 데이터 분석가이지만, 데이터를 데이터 웨어하우스에 담거나 하는 것을 제대로 이해하지 못해서 백엔드 엔지니어 → 데이터 엔지니어 → 데이터 분석가를 하고 싶은데, 이러한 커리어 패스는 어떻게 보시나요

이렇게가는 것 매우 추천

 

 

 

KPI와는 달리, 분석하거나 예측하고자 하는 대상을 결정할 때, 여러 소스(기사, 방송, 기초분석 등)로부터 얻는 일종의 hint 또는 insight로부터 출발하는데, 그런 hint나 insight를 얻는 노하우가 있을지요?

 

어떤 힌트를 줘야 할까? feature engineering 필요가 없다. 잘하는 사람들은 문제를 보는 각도가 다르다 스팸 나오는 것도 차분하게 만들려고 했다.

형태소 분석 / feature 분석

스팸은 자극적인 언어들이 많다. → 조사의 비율이 30프로가 된다. 스팸 문서는 조사가 매우 낮다. → 통찰력을 보여준다. → 오래한 사람들은 감이 있고, 문제에 대한 이해도도 좋았고 → 접근하는 방식들이 좋았다. → 관찰을 잘해야한다. → 어떻게 다른가?

 

 

 

혹, 기영연사님께서 보실 때, 설명해주신 케이스스터디 외에도 DL이 활용되면 좋을 것 같은 분야에 대해 의견 공유해주실 수 있을까요?

거의 모든 분야, 이런 생각보다는 어떤 분야에서 어떻게 머신러닝 설계할지 보는 것이 중요

한국은 집단 이기주의가 있어서 사회가 다음 단계로 넘어가는데 어렵다. 한국은 여전히 원격진료가 되지 않는다. (의사 반대) → 영리라서 기술 개발 필요함

 

현재 헬스케어 스타트업에서 데이터 담당하고 있습니다. 모델링에 있어 성능을 올리는데 쓰이는 시간과 투자하는 시간을 항상 저울질 하는데 적정 수준에서 다른 업무를 하는게 쉽지 않더라구요 기준이 따로 있으신가요?

케이스 바이 케이스이지만, 롤기반, 예측이 60퍼센트 이상이라면 누가 더 아픈지만 알려줘도 중요하다. 다 맞지 않더라도 굳이 모델링 안해도 성능 보여주면 충분하다. 대부분은 롤베이스이다. 데이터 수집하고 어떻게 구현할 것인지

 

 

안녕하세요 컴퓨터 공학 학과에 재학중인 대학생입니다. 강연을 듣다보니 한국에서는 ‘데이터 사이언티스트’와 ‘데이터 엔지니어’ 또 ‘데이터 애널리스트’의 롤에 대한 경계가 모호한 것 같다는 생각이 더더욱 들었습니다. (한국에서는 교육 역시 이거저거 섞어서 하는 듯한 느낌이 강하다고 생각 들었습니다) 이 3 직종의 차이와 필요 역량을 다시 한번 말씀해주실 수 있을까요? 또는 현재 각 롤을 이루고 있는 대다수 사람들의 백그라운드를 알 수 있을까요?

미국도 유사하다. 회사의 규모마다 역할이 다르다. / 데이터 분석가는 포화상태다. / 석사 따도 어렵다. 데이터 사이언티스트는 모델링하는 사람들 → 통계에 대한 이해, 통계적으로 유의미한 것들

3개의 직군을 놓고 보면 수요는 (경험있는)사이언티스트가 높은데, (주니어)사이언티스트에 대해서는 니즈 없다. 캐글로 마스터 되면 좋지 않을까?

 

딥러닝, 데이터 등에 막 관심을 갖고 있어서 강의를 듣게 되었는데요. 이런 부류에 관심을 갖는 초창기 학생이나 사회초년생이 배워야 하는 것이 무엇인가요? 특히, 교육 쪽에 관심이 있습니다.

온라인 강좌, 책등을 보는 것이 어떨까 싶음. 사회초년생이면 본인업무와 연결시키는 것

 

 

게임개발자로 일하기 위해서는 어떤 역량을 키우는게 좋을까요

어떤 일을 하느냐에 따라 다르다 게임 산업 사람들은 데이터를 이용해서 게임 난이도 조정, 어떤 타이밍에 게임 개발 자체보다는 어떻게 재밌게 만들고 회사관점에서 어떻게 매출 높일수 있지 않을까 이정도

 

데이터 엔지니어링 측면에서 데이터를 어떻게얻고 어떻게 구축하고 어떻게 저장할지가 참 어려운 거 같은데강사님은 이런 것을 실제로 설계하고 구현하실떄 어떤 것을 고려하여 구축하시나요?

첫번째는 데이터 웨어하우스는 웬만하면 클라우드를 쓰는 것이 좋고, (인프라와 관리 용이) 어떤 데이터를 읽어와야할지, 어떻게 데이터 모델에 포커스 하는 것이 중요하다

데이터 저장하는 부분은 데이터 엔지니어는 쓰지 않는다. → 데이터 사이언티스트와 얘기해서 어떻게 저장하는 것이 중요하고 효율적인지 고민하는 것이 중요하다. / 너무 잘하려고 하지 말고 최소한으로 해보고

 

 

현재 제조기업에서 SAP BW(DW) / EIS를 담당하고 있습니다.데이터에 대한 인지도가 작은회사에서 어떻게 드리븐을 해나가야 할까요?

쉽지는 않다. 가설을 세우고, matrix 세우고 하는 것들 가설을 검증하고 어떤 일들을 해야할지 해보는 것이 중요하다! 작은 아이디어부터 시작, 어떻게 측정할지, 어떻게 결과를 뽑아서 사람들을 인정하게 할 것인지

 

 

아주 사적인 질문인데, 지금 하시는 업무의 언어와 프레임워크는 어떤 거 쓰시나요? ㅎㅎ

데이터는 파이썬이라고 보면된다. sql

etl - 에어플로우 - saas

반응형