- Data Collection and Prepartion
- Feature Engineering
- Model Seleciton and Model Learning
- Model Evaluation and Model Tuning
- Deployment and Monitoring
- Re Evaluation and Model update
- 데이터 문제에 가장 적합한 모델 유형과 아키텍쳐 선택
- 모델 파라미터 최적화하도록 학습 ( MSE, CrossEntropy등과같은 loss함수 기반)
- 최종선택 모델 실제 application에 상품화 배포 진행
- 유형
- 서비스 운영문제
- 데이터 보안 문제
- 윤리적 문제
- 신뢰적 문제
- 데이터 노출
- 민감한 정보를 포함할수 있은데 노출이 될경우 개인정보 침해 발생
- 데이터 조작
- 해커가 데이터를 조작해 모델 성능조작할수 있음
- 데이터 유출
- 데이터가외부로 유출될 경우 악용될 우려가 있음
- 데이터 암호화
- 데이터를 암호화하여 외부로부터 보호
- 데이터분할
- 머신러닝에 사용되는 데이터를 여러 분산 시스템에 나눠서 저장
- 접근 제어
- 머신러닝 데이터에 대한 접근을 제한하여 외부로부터 보호
- 로그 관리
- 데이터에 접근기록을 감시하여 외부침입시 신속히 대응
- 데이터나 모델 accuracy나 fairness에 영향을 미치는 bias 조심
- 해결하기 위해 모델 데이터 검토 및 균형있는 데이터 수집 , 모델 학습시키기 전에 데이터를 균형있게 조정하는 것이 필요
- 모델의 공정성을 평가하기 위해 다양한 fairness metric 사용할수 있음
- 모델을 개발하면서 수집한 데이터는 개인정보일 가능성이 높으므로 익명화하거나 적절한 보안조치를 취해야함
- 데이터 수집 및 사용시 관련 법규 윤리적 지침을 준수해야함
- 일부 모델 해석이 어려워 예측결과 설명하기 어려움
- 이는 올바르지 않은 결정을 내릴수 있게 함
- XAI로 개발하거나 모델과정을 시각화하는것이 필요
- 모델이 학습한 데이터 소스 품질을 관리해야함
- 적절한 데이터 전처리 수행하는 것이 필요
- 데이터 분석 모델 훈련 ,예측 생성등을 포함하는 시스템
- 모델관련 어플리케이션 및 도구의 집합
- 특정 비즈니스를 해결하기 위해 데이터 분석하여 모델 예측 제공
- 구성요소
- 데이서 수집 밈ㅊ 처리
- 모델 개발 및 훈련
- 예측 및 추론 메커니즘
- 사용자 인터페이스 및 API
- 특정 머신러닝 모델의 구현과 기능에 초점을 맞추지만 모델 전체 생명주기를 관리 / 최적화에는 초점이 많이 잡혀있지 않다
- ML 시스템은 특정 시점에 구축된 모델을 기반
- 즉 ML life cycle에서의 모니터링 , 지속적인 모델 업데이트 / 지속적 배포 , 신뢰성 관리등은 고려되지 않음
- 머신러닝 오퍼레이션
- 기계학습 모델 구축 배포 관리하기 위한 프로세스 전체
- 전통적인 프로세스와 다름, 머신러닝 시스템의 독특한 특징을 고려하여 구성