R 복습
시계열 데이터 활용 - blog link
시계열 분석(Time series analysis)
요소별 관계, 분석, 다양한 조건별 미래 결과 연산(예측)
활용 예) 콘텐츠 수출구조 분석 및 연관산업에의 영향분석
- 시계열 모형의 종류 및 사용방법
  - step1. 비정상성 non-stationary 시계열
    - AR 모형
      Autoregressive, 자기회귀(상관) 모형
      자기상관성*을 시계열 모형으로 구성한 것
      *자기상관성(Autocorrelativeness) : 이전의 결과와 이후 결과 사이에서 발생하는 현상(패턴)을 통해 규칙성 발견
    - MA 모형
      ****Moving Average, 이동평균 모형
      이전에 생긴 불규칙한 사건이 이후의 결과에 편향성을 초래하는 이동현상
    - ARMA 모형
      AR + MA
    - ARIMA 모형
      Autoregressive Integrated Moving Average
      ARMA를 누적한 모델
      비정상 과정 모델 중 가장 대표적인 모형
      - 용어의 의미( 이론요약pdf)
        AR: 자기회귀(Autoregression). 이전 관측값의 오차항이 이후 관측값에 영향을 주는 모형이다. 아래 식은 제일 기본적인 AR(1) 식으로, theta(θ ,세타)는 자기상관계수, epsilon은 white noise이다. Time lag은 1이 될수도 있고 그 이상이 될 수도 있다.
        I: Intgrated. 누적을 의미하는 것으로, 차분을 이용하는 시계열모형들에 붙이는 표현이라고 생각하면 편하다.
        MA: 이동평균(Moving Average). 관측값이 이전의 연속적인 오차항의 영향을 받는다는 모형이다. 아래 식은 가장 기본적인 MA(1) 모형을 나타낸 식으로, beta는 이동평균계수, epsilon('e, 엡실론')은 t시점의 오차항이다.
      - 도출과정 및 기본 사용방법
        현실에 존재하는 시계열자료는 불안정(Non-stationary)한 경우가 많다.
        그런데 AR(p), MA(q) 모형이나, 이 둘을 합한 ARMA(p, q)모형(시계열의 기본, 시계열의 평균과 분산이 일정하고 일정한 추세가 없으면 정상시계열)으로는 이러한 불안정성을 설명할 수가 없다.
        따라서 모형 그 자체에 이러한 비정상성을 제거하는 과정을 포함한 것이 ARIMA모형이며 **ARIMA(p, d, q)**로 표현한다.
        ARIMA의 모수는 크게 3가지가 있다. AR모형의 Lag을 의미하는 p, MA모형의 Lag을 의미하는 q, 차분(Diffrence)횟수를 의미하는 d 가 그것이다. 보통은 p, d, q의 순서로 쓴다.통상적으로 p + q < 2, p * q = 0 인 값들을 많이 사용한다.
        여기서 p * q = 0 이라 하면, 두 값중 하나는 0이라는 이야기이다. ARIMA는 AR모형과 MA모형을 하나로 합쳤다면서 둘 중 하나의 모수가 0인건 또 무슨소리? 라고 할지 모르겠지만, 실제로 대부분의 시계열 자료에서는 하나의 경향만을 강하게 띄기 때문에, 이렇게 사용하는것이 더 잘 맞는다고 한다.
        시계열의 비정상성(Non-stationary)을 설명하기 위해 관측치간의 차분(Diffrance)을 사용
        독립변수(Independent variable)를 이용하여 종속변수(Dependent variable)를 예측하는 일반적인 기계학습 방법론에 대하여 시간을 독립변수로 사용한다
      - 종류
        기본 시계열 모형 : 벡터자기회귀 모형(VAR), 공적분 모형(Cointegration) 개념활용
        다변수(Multivariate) 시계열 모형 : 기본 시계열 모형에 회귀분석의 특징을 결합하여 변수 사이에 나타나는 상관관계와 인과관계를 추정
      - 쓰임( 출처)
        시계열은 과거의 현재의 분석에 대해서는 매우 정확하다(예측 x)
        → 사례 : 과거의 주식이 저평가되었는지 고평가 되었는지 확실하게 알 수 있다.
        시계열로 미래를 알 수 없지만, 미래에 대한 시나리오를 비교하는게 쓸 수는 있다.
        → 활용 : 특정 (전제) 조건(상수 또는 관계)하에 결과(성공유무)는 예측(연산)할 수 있다
        시계열로 대상의 특징이나 다른 요소와의 관계를 규명할 수 있다. ← RFP 포함의 목적
        → 사례 :GDP는 국민소득과 인구, 수출입 등과 높은 유관성이 있음을 회귀분석을 통해 입증되었다.
        여기서 인구증가는 통상 일관된 Trend를 따른다는 사실이 다양한 시계열 연구로 확인된 바 있다.
        만약 정부가 GDP를 지속적으로 끌어 올리고자 한다면 인구 증가가 지속성을 유지하는데 필요한 요소를 찾아내는 것과 동시에 인위적인 방식을 통해서라도 초기에 인구가 증가하는 Trend를 조성함으로써 경쟁성장을 이끌어낼 수 있다.
  - step2. 정상성* stationary 시계열
    - 개요
      비정상성 시계열을 해석(분석의 용이성)하기 위해 변환(분산을 일정하게, 등)한 자료
      - 정상성 - 평균과 분산같은 통계적 특성이 시간에 대해 일정한** 성질
      ** 여기서 각 요소간 관계를 도출
    - 특징
      모든 시점에 대해 일정한 평균을 가진다
      시간 주기*에 따라서 점진적으로 증가하는 추세**를 가지고 있다
      *랜덤과정
      시간의 흐름에 따르는 확률 분포
      확률변수가 시간의 흐름에 따라 변화한 값들로 시간의 흐름에 따라 값의 변화가 일정하지 않다.
      **이러한 랜덤과정 속에서 보이지않는 패턴, 공식들을 발견하여 도출하는 모형
- prophet( 오픈소스, facebook 시계열 library)( 출처1)
  → 사례 : KDD2018 미세먼지 예측에서 상위권에 포진한 랭커가 날씨 예보정보를 전혀 쓰지않고 과거정보만으로 냅다 미세먼지 예측량을 맞추게 되는 방법 중 하나로 활용되었다.
  논문( 출처2) :
  시계열분석은 실제 생산관리나 수요예측을 위해 특별히 많이 쓰게 되는데, paper에서는 다음 두가지 점에 있어서 한계가 있다고 지적합니다.
  1. 완전자동화 되는 시계열은 튜닝하기가 어렵다는점
  2. 기업 도메인 지식이 뛰어난 사람은 시계열에 대한 지식이 부족한점.
  시계열을 통한 예측은 특히나 실무에서 굉장히 수요가 큰데도 불구하고 품질이 그다지 좋지 않은 편입니다. 그래서 paper는 scale(컴퓨팅 파워를 뜻하는것이 아닌, 모델자체의 확장가능성에 대한 개념)이 가능한 시계열을 만들겠다는 원대한 포부를 밝힙니다.
  결국 중요한건 Prophet에서 사용하는 g(t)라는 항목은 도메인지식이 짬뽕된 아래의 g(t)로 사용할수 있다는것이 중요하다고 말할수 있을겁니다.
  예를들어 전자제품의 수요를 때려맞춰야 하는 경우 각종 광고나 날씨에 대한 영업사원들의 노하우가 있다면 시계열에 슬쩍 녹이기가 쉽고, 이를 시각적으로 확인하기도 용이하다를 말하고 있다고 보면 될것같습니다.
  paper에서 Prophet이 자주 쓰이기를 바라는 분석가의 정의는, 시계열과 통계를 잘 모를수도 있지만 물건이 언제 팔리고 어느 공휴일에 얼만큼 나가는지 정말 잘 알고 있는 우리네 회사원과 같은 '업무'경험이 풍부한 사람입니다.
  - Capacities (시장 총 수요)
  - ChangePoints (상품이 바뀌거나 신제품이 출시될 때)
  - Holiday and Seasonality (판매량에 영향을 많이 미치는 휴일 등)
  - Smoothing Parameter(주기마다 변동을 얼마나 나타내야 하는지)
  우리들은 이에 대한 조건들을 바꿔서 계속 Prophet을 실행해볼수 있습니다.
  재미있게도 이 paper에서 강조하는 포인트는 분석가는 그럴듯한 시각화 툴을 가지고 이러한 파라미터들을 쉽게 조정하여 플로팅하고 다시 재모델링 해보는 과정을 빠르게 반복하기를 추천한다는 것입니다.
  τ 를 바꿔서 주기성을 자주 반영하게 해준다던지,
  σ 를 바꿔서 주기성을 강하게 반영하게 해준다던지 등을 말입니다.
  이러한점은 맨위의 그림에 있는것처럼 도메인 지식을 가지고 있는 사람이 직관을 가지고 해야 더 나은부분이 있을 것입니다.
- 시계열 분석 및 활용의 포인트 # 걍 의견 by 변
  1. 합리적 시나리오
    X - 어떻게 될 것이다
    O - 어떤 조건(사람의 경험적 노하우*, 과거 데이터 기반 상관관계 분석)을 만족하면 어떻게 될 것이다.
    *서비스단에서 이끌어내야 할 주요 포인트
  2. 시계열 분석은 예측이 아닌 다른 요소와의 관계를 분석하는 용도로 사용한다
  3. 시계열 분석은 예측이 아닌 파라미터와 리턴이 있는 함수(조건연산)처럼 활용한다
    → 제공하려는 서비스의 이해관계자(현장 전문가)의 노하우를 파라미터로 실증(함수를 연산한 리턴값)하는 형태로 진행한다.
    → 다양한 예상 시나리오 나열은 사람이, 각각의 시나리오 결과치는 시계열 분석으로**, 해석은 정상성 시계열로의 변환을 통해**
SNA, Social Network Analysis (시각화)
사회연결망 분석
개인과 집단들 간의 관계를 노드와 링크로 모델링
→ 위상구조와 확산 및 진화 과정을 계량적으로 분석
시각화 → d3.js
유사 서비스 사례

etc.,

debug notes

앱스토어 빌드

CI/CD 자동화

git note

notification
https://github.com/riseryan89/notification-api
- git history
  git reset --hard 539a3cfa3a82b01e11a49f39edaeb4f9e0eb0e39
  git reflog
  git reset --hard HEAD@{1}
- requirements
  pip install bcrypt
  pip install pydantic
  pip install email-validator
  pip install pyjwt
  pip install yagmail
db
mysql://마리아디비사용자:비번@localhost:포트/데이터베이스이름?charset=인코딩이름
run
uvicorn app.main:create_app
검색 인터페이스
모바일 앱 검색 서비스 UX 원칙
20 Best Practices for Mobile App Search
검색 기능 설계 사례모음 by UX BOOTH (번역)
UX 가이드 원칙 #01. 검색 절차 줄이기
Search experience: Designing interfaces
사용자의 수고를 덜어주는 검색 UX
코딩 수학
https://data101.oopy.io/
https://wikidocs.net/22857
코딩 수학 - 9 미분법
https://codetorial.net/numpy/index.html
https://post.naver.com/my/series/detail.naver?seriesNo=384660&memberNo=8076928&prevVolumeNo=10533933
RPA, Robotic Process Automation
RFP '기능' 요구사항(구축 프로세스) ****
- 단독업무 solo bot
  전체 업무 디지털라이제이션 → 데이터 베이스 패턴(업무별/사용자별) 확보 → 알고리즘(매칭, 자동완성) 개발 → 자동화 프로세스 구성 → 테스트 및 업데이트
- 협업체계 side bot
  (구축 프로세스) solo bot → 데이터 베이스 패턴(결제라인/결제기준)/개인/조직 R&R별) 확보 → 업무계획(연간/분기/월/일) 참조 환경마련 → 알고리즘(매칭, 자동완성, 스캐쥴관리, 알림, 문서/스캐쥴 히스토리 관리) 개발 → 자동화 프로세스 구성 → 테스트 및 업데이트
- 기획 업무지원 PD planning note
  (구축 프로세스) solo bot, 정보 제안(동향, 현황 리서치 피드백, data to info), 번역, STT, RFP...
OCR
이미지 to 텍스트(문서스캐닝 관련api )
https://www.youtube.com/watch?v=F0x9sd1kQyM
https://ssungkang.tistory.com/entry/Google-Vision-API-를-사용한-글자-인식