airflow
-
Continuous Machine Learning 환경을 위한 Lab 환경 구축하기IT 2021. 9. 27. 20:39
Machine Learning 모델을 개발하다보면 개발 완료된 모델에 대한 지속적인 통합, 지속적인 배포 및 지속적인 학습을 고려해서 개발이 필요하며 처음에 시간이 좀 더 걸리더라도 이러한 MLOps 또는 GitOps 환경을 구축해두면 모델을 개발 및 유지보수 하는데 시간을 많이 절약할 수 있으며 이러한 시간 절감으로 인하여 같은 시간에 더욱 더 많은 모델을 개발 가능하게 된다. 이번 글에서는 Continouse Machine Learning 환경을 구축하기 위한 Lab 환경을 구축하여 간단한 모델을 개발해보고 MLOps와 GitOps를 이용한 지속적인 통합, 배포 및 학습 환경을 구현해보도록 한다. 전체적인 시스템 아키텍쳐는 아래 이미지와 같으며 시스템은 보안을 고려하여 최소한의 외부 접속을 고려하여 ..
-
Airflow Multi-tenant GuideIT 2021. 9. 21. 20:00
Airflow Multi-tenant? airflow는 Web Server, Scheduler 그리고 Worker로 구성되어 있으며 기본적으로 제공하는 권한은 Admin, Op, User, Viewer, Public로 5가지이다. Airflow에 접속하여 Dag를 실행하는 그룹이 하나밖에 없다면 크게 상관이 없지만 사용자 또는 그룹이 대규모라면 그룹 권한 정책을 적용하지 않으면 개발보다는 운영에 많은 시간을 소비하게 된다. 경험상 이러한 루틴의 반복은 개발과 운영의 라이프 사이클을 떨어뜨리는 요소로 작용하고 시스템 업그레이드와 패치에 상당한 준비시간이 필요하게하고 결국에는 업그레이드와 패치가 불가능하게되어 시스템 운영에 초점을 맞추어 개발과 운영이 진행되게 된다. 이글에서는 Airflow login wi..
-
Airflow authentication with RBAC and KeycloakIT 2021. 9. 20. 19:47
Apache Airflow? Data 분석 업무 진행시 가장 중요한 업무는 데이터를 정확한 시간에 정확하게 처리하여 정확한 곳에 저장하는 일이 가장 중요하다. 이는 데이터 사이즈와 업무 복잡도에 따라 구현 난이도가 달라지게 되며 개발 완료된 파이프 라인에 대한 운영 또한 상당한 리소스가 필요하다. 레거시한 방식으로는 데이터 전처리 프로그램을 작성 후 스케줄러에 등록하여 실행하는 방법이 대부분이었으나 최근에는 오픈소스 ETL 툴을 사용하여 이러한 작업을 많이 자동화 하는 추세이다. 데이터 분류에 따라 오픈소스 ETL Tool도 약간씩 달라지며 Airflow는 Data Science 관련 업무에서 많이 사용하는 툴이다. Airflow 자체가 워낙 잘 만들어진 툴이고 제공되는 기능도 다양하여 사용하는데 큰 문..