PYTHON
-
Airflow authentication with RBAC and KeycloakIT 2021. 9. 20. 19:47
Apache Airflow? Data 분석 업무 진행시 가장 중요한 업무는 데이터를 정확한 시간에 정확하게 처리하여 정확한 곳에 저장하는 일이 가장 중요하다. 이는 데이터 사이즈와 업무 복잡도에 따라 구현 난이도가 달라지게 되며 개발 완료된 파이프 라인에 대한 운영 또한 상당한 리소스가 필요하다. 레거시한 방식으로는 데이터 전처리 프로그램을 작성 후 스케줄러에 등록하여 실행하는 방법이 대부분이었으나 최근에는 오픈소스 ETL 툴을 사용하여 이러한 작업을 많이 자동화 하는 추세이다. 데이터 분류에 따라 오픈소스 ETL Tool도 약간씩 달라지며 Airflow는 Data Science 관련 업무에서 많이 사용하는 툴이다. Airflow 자체가 워낙 잘 만들어진 툴이고 제공되는 기능도 다양하여 사용하는데 큰 문..
-
KOSPI 200 크롤링주식 2020. 11. 30. 19:52
네이버 주식에서 KOSPI200 데이터를 크롤링하는 방법을 정리해 보았습니다. HTS나 증권 포털에서 볼 수 있지만 좀 더 복잡한 분석을 위해서는 HTS나 증권 포탈에서 제공되는 데이터로는 많이 부족합니다. 매일 KOSPI 상위 200개 종목의 데이터를 클롤링하여 저장해두고 분석하여 장기 투자할 종목을 선정해보려고 합니다. 크롤링 환경 구성 - CentOS 8 - Python 3.6 - PostgreSQL 12.4 파이썬 관련 패키지 - selenium==3.141.0 - beautifulsoup4==4.9.1 크롤링한 데이터를 저장할 데이터 테이블을 생성합니다. Schema는 아래와 같습니다. DROP TABLE IF EXISTS kospi_stock; CREATE TABLE IF NOT E..