데이터사이언스 세션 정리

2 minute read

Session. 1 딥러닝

개와 고양이를 구분하는 기계

ex1) Brain.js 잘 보이는 글자 찾기

High Dimemsional space

ex2)그네타는 알고리즘

이게 어떻게 되는건지 쉽게 이해할 수 있는 영상.

https://www.youtube.com/watch?v=Yr_nRnqeDp0

 

 

perceptron

multi layer perceptron

개와 고양이를 구분하려면 8개 레이어가 필요했다는… 이론이 아닌 노가다 테스트로 알아낸 결과.

 

딥마인드 - Doom - 바둑 - 스타

스타는 최근에 패배하긴했는데… APM제한도 있었고 아직 스터디가 부족했을 뿐.. 일정시간 후에는 비교할 수 없는 수준으로 성장할 수 있을것이라고 본다.

Session2. A/B Testing

ex) facebook 메뉴바

통제실험

exploitution vs exploration dilema

MAB multi-armed bandit problem

A/B테스팅 사용자간 불공평한 혜택 발생. 인스턴스 던전에는 가능.

Firebase 앱 A/B테스팅 지원

GoogleTagManager

Session3. 공공기관 데이터

공공기관 데이터 공유보관 - 데이터 분실도 크고 보안수준 낮음

선형모델, 비선형모델 등 분석목표를 정의하고 해야하는데

개념이 없는 사람들은 그때그때 생각나는대로 요청을 함

미리 설명 필요

불라불라나불나불불나불나

고급 데이터 사이언티스트와 최고급 데이터사이언티스트

딥러닝이 좋아… 몸에좋고 치매예방에 좋고 건강에 좋아. 딥러닝 하면 장수해

twiiter 데이터 분석 하지마. 오염된 데이터 더러워… textX imageO 이미지만 써. 텍스트 버려.

스노우 이미지 못써먹어

신입채용할 때 쓸만한애들은 연합동아리같은데 활동하는애들이 쓸만하고 나머지는 못써

공공기관 데이터는 데이터 정제가 필요

Session4. 제조업 데이터사용

SmartFactory, Industry 4.0

제안 화천기공 - 기계동작 log + 진동

수율 - 생산성

Wafer 웨이퍼 - 판 한개 천만원

웨하스 유사어원

1박스(로트lot) 20~30개

 

반도체 생산시 500바퀴 - 1cycle - 1회err? 불량

반도체 제조시간 17분~25분

똑같이 돌리는데 시간차이가 발생. …데이터를 통해 원인분석

 

데이터 특징

정형화된 Data

six-sigma 등 기존 통계기법 적용중

no-sql에 적합한 데이터

분석을 위해선 industry 지식이 필요

Dictionary 정의가 잘 되어있지 않음

 

다중분산성 문제

variable 사이의 높은 상관관계

 

불균형 자료

불량 데이터를 분석 해야하는데 불량의 Data가 적음. 불량률은 0.xx퍼센트

랜덤추출시 양품 데이터만 99.99%나옴.

 

반도체산업 - 머신러닝 유사 :: 최적화 산업

wafer개 생산시 10만row

lot단위로 가면 * 30

 

Data분석 선 고려사항

sql on hadoop - 분석시 raw data 전처리

presto, pig, hive …pheonix

 

담당자와 교류시 소통양식 shiny, dash 사용(web 툴)

 

R연동 Architecture

  • 분석가의 코드는 그냥 못씀
  • 확인 후 재개발

제조 딥러닝

사례1)

제품사진 분석

사례2)

wafer 오류 패턴분석

패턴 그룹화

실제로는

  • 노이즈가 많아서 분류가 힘듦
  • 오류 사례를 찾기가 힘듦 - 학습속도 더딤
  • 직관적인 분석이라서 현업을 설득시키기 힘듦

Session5.

Entity, Intention, Description

 

cleansing - correcting

tokeninzing

품사판별

형태소 분석

 

언어의 모호성

우아하게

  • 명사 twice의 우아하게
  • 형용사 우아하게

문맥을 판별 - 확률로 검증

 

문장의 템플릿을 알면 명사가 뭔지 추측 가능

L-R graph

edit distance

노이즈 ( 우회, 교정 )

고지능 머신러닝

배경지식 없이 추리능력 자체가 좋은 머신러닝은 가능한가

높은 직관력을 가진.

Session6.

학습데이터 수집

end-to-end 분리설계

발표자가 헐떡거리면서 말해가지고 하나도 못알아들음