6년 5개월간 Python/NodeJS 백엔드와 플랫폼을 만들어왔습니다.
공공기관 B2G/B2B SaaS, 실시간 알림 시스템, 멀티 클라우드 모니터링 등 Azure, Naver Cloud Platform(NCP), On-Premise가 섞인 환경에서 설계부터 운영까지 직접 해왔습니다.
처음에는 기능 구현이 전부였는데, 어느 순간 "이 시스템이 장애 났을 때 얼마나 빨리 살아나는가"가 더 중요한 문제가 됐습니다. 그 이후로 HA 설계, Observability, 장애 대응 체계 정립에 계속 매달리고 있습니다.
CI/CD는 NCP DevTools(Source Commit/Build/Deploy)와 GitHub Actions로 구축했고, 모니터링은 Prometheus, Grafana, Alertmanager 조합을 씁니다. 검색은 OpenSearch, 캐시는 Redis, 비동기는 Celery, ETL 파이프라인까지 직접 구성해서 운영 중입니다.
공공 SaaS를 NCP 기반 MSA로 전환하면서 CSAP, K-PaaS, 국가보안인증을 직접 땄습니다. 인증 과정의 보안 요구사항을 아키텍처 수준에서 대응한 경험이 있습니다. 알림 파이프라인 개선으로 오류율 75% 감소, 시스템 규모 5배 확장을 이끌었고, 모니터링 표준화로 MTTR 30%를 줄였습니다.
요즘은 백엔드/인프라 경험을 기반으로 Data Engineering, AI/LLMOps, IaC 쪽을 파고 있습니다.
실무 경험을 다듬으면서, 새로운 기술 영역을 병행 학습하고 있습니다.
DevOps & GitOps
| 학습 주제 | 목표 |
|---|---|
| ArgoCD + Helm 기반 GitOps 워크플로우 | Canary/Blue-Green 배포 전략 직접 구현 |
| Terraform으로 NCP/Azure 인프라 코드화 | 멀티 클라우드 IaC 패턴 정립 |
| GitHub Actions / NCP DevTools 고도화 | 테스트 → 빌드 → 배포 완전 자동화 |
| Kubernetes Operator 패턴 | CRD 기반 커스텀 리소스 운영 |
Data Engineering
| 학습 주제 | 목표 |
|---|---|
| Apache Kafka + Schema Registry | 이벤트 중심 아키텍처(EDA) 직접 구현 |
| Apache Airflow ETL 파이프라인 | DAG 기반 스케줄링 및 데이터 워크플로우 설계 |
| Polars/Pandas 기반 데이터 변환 | 고성능 데이터 처리 및 분석 자동화 |
| dbt(Data Build Tool) | 데이터 변환 계층 코드화 및 테스트 |
Backend 심화
| 학습 주제 | 목표 |
|---|---|
| Go & Java/Spring Boot | 멀티 언어 백엔드 역량 확장 |
| gRPC + Protocol Buffers | 서비스 간 고성능 통신 패턴 실험 |
| 비동기 처리(Celery, Redis Queue) | 성능 한계치 테스트 및 최적화 |
| Clean Architecture / DDD | 도메인 중심 설계 원칙 적용 |
Infrastructure & DB
| 학습 주제 | 목표 |
|---|---|
| PostgreSQL HA(Patroni/pg_auto_failover) | 실전 운영 패턴 및 Failover 검증 |
| Redis Cluster 모드 | 장애 시나리오별 복구 전략 수립 |
| MinIO + Harbor | Private Registry/Object Storage 자체 구축 |
| InfluxDB / TimeSeries DB | 시계열 데이터 관리 및 쿼리 최적화 |
Observability
| 학습 주제 | 목표 |
|---|---|
| OpenTelemetry 기반 분산 추적 | Distributed Tracing 표준 도입 |
| Loki + Tempo + Alloy 스택 | 로그/트레이스 연계 분석 파이프라인 구축 |
| SLO/SLI 정의 & Error Budget | 장애 대응 체계 정량화 |
| eBPF 기반 관찰 | 커널 레벨 성능 가시성 확보 |
Frontend (풀스택 확장)
| 학습 주제 | 목표 |
|---|---|
| Next.js App Router + TypeScript | 실제 서비스 수준 UI 구현 |
| React Query + Zustand | 서버 상태 관리 패턴 학습 |
| API Contract 설계 | UX 관점에서 백엔드 API 설계 훈련 |
AI / ML & LLMOps
| 학습 주제 | 목표 |
|---|---|
| Ollama + LangChain + LangGraph | 로컬 AI 에이전트 구축 |
| MCP(Model Context Protocol) | 도구 통합 및 에이전트 오케스트레이션 |
| PyTorch / Hugging Face | 파인튜닝 실험 및 모델 서빙 기초 이해 |
| MLflow / Weights & Biases | 실험 추적 및 모델 관리(MLOps) |
상세 프로젝트 보기 (Click to expand)
-
공공 MSA SaaS 플랫폼 구축 (2023.04 ~ 2024.09, 18개월) — Backend/Platform
NCP VPC, NKS(Kubernetes) 위에서 B2G/B2B SaaS를 MSA로 설계했습니다. CSAP, K-PaaS, 국가보안인증을 획득했습니다.
HPA(CPU/메모리) 기반 자동 스케일링, PDB(minAvailable 80%), Anti-Affinity로 Pod/Node 가용성을 확보했고, API Gateway(인증/Rate-limit/Quota)도 직접 구축했습니다. On-Premise에서는 Harbor, Minikube, Docker 기반 K8s 테스트 환경을 별도로 만들었습니다. -
실시간 고가용성 알림 시스템 (2021.07 ~ 2024.09, 총 41개월) — Backend/Platform
실시간 예약/호출 알림 서비스를 운영했습니다.
외부 메시지 채널(SMS/알림톡) 통합과 STT 연계 파이프라인 개선으로 오류율 75% 감소, 시스템 규모 5배 확장을 달성했습니다. DB 인덱스 최적화와 런타임 마이그레이션으로 처리 효율과 안정성을 높였습니다. -
멀티 클라우드 SRE 모니터링 구축 (2021.09 ~ 2022.02, 2022.09 ~ 2023.06, 총 16개월) — Backend/Platform
Azure + NCP + On-Premise 혼합 환경에 Prometheus, Grafana, Alertmanager를 표준화했습니다. Node Exporter, Blackbox Exporter 설치부터 이상 감지까지 전 과정을 설계해서 모니터링 커버리지 300% 향상, MTTR 30% 단축을 달성했습니다. -
제작 플랫폼 현대화 (2022.01 ~ 2023.04, 16개월) — Backend/Platform
레거시 Django API를 재설계하고 OpenSearch를 도입해서 검색을 크게 개선했습니다.
Celery 비동기 처리, Redis 캐싱 도입으로 개발 시간 50% 단축, 업무 처리 속도 30% 향상, 검색 오탐률 30% 감소를 달성했습니다. -
장애 대응 체계 구축 (2024.01 ~ 2024.03, 3개월) — Owner
On-Premise, Azure, NCP에 분산된 서비스의 장애 시나리오를 체계화했습니다.
감지, 선언, 복구/개선 각 단계별 절차를 문서화하고 SEV 기반 장애 등급 체계를 정립했습니다. 장애 복구 시간 30% 단축 및 전사 공통 장애 대응 프로세스를 구축했습니다. -
음성/언어 데이터 분석 파이프라인 (2022.08 ~ 2024.09, 26개월) — Backend/Data
음성 인식(STT) 결과 품질 향상을 위한 분석 파이프라인을 구축했습니다.
cron 기반 ETL, 오류 유형 분류/리포팅 자동화로 분석 리드타임 25% 단축. 오발송 원인 추적 체계도 상시 운영 중입니다. -
제작 플랫폼 초기 개발 (2019.05 ~ 2021.01, 21개월) — Backend/Platform
멀티미디어 제작 플랫폼을 AWS PoC에서 시작해 Azure 기반으로 마이그레이션했습니다.
제작물 CRUD, 로그/상태 관리 기능을 개발하고 Nginx 업스트림 가중치 조정으로 제작 건수를 2배 늘렸습니다. -
배리어프리 키오스크 및 웹 서비스 (2022.07 ~ 2023.02, 2023.07 ~ 2024.01, 총 15개월) — Backend/Platform
문화/공공 시설 대상 멀티모달(음성/텍스트/시각) 안내 서비스 백엔드를 구축했습니다.
Django API를 ExpressJS로 리팩토링하고, Prometheus/Alertmanager 알림 체계, Nginx 로드 밸런싱을 구축했습니다.
성능 기준(DAU 약 1만, 피크 QPS 200~250, 5xx < 0.5%, 캐시 히트율 85% 이상)을 달성하며 납품 실적을 4배로 늘렸습니다.
- Cloud-Native Infrastructure: PostgreSQL HA, Kafka, AI Agent 연동이 통합된 Docker 기반 홈 서버 인프라입니다.
- GitOps Kubernetes Platform: ArgoCD와 Istio를 활용한 선언적 운영 및 Canary 배포 환경을 구축했습니다.
- Multi-Language Templates: 5개 언어, 17종 프레임워크의 실무용 개발 템플릿을 표준화했습니다.
성과 요약 보기 (Click to expand)
| 구분 | 실무 성과 | 수치 |
|---|---|---|
| 인증/규제 | CSAP 인증 획득(2024.07), K-PaaS 호환성, 국가보안인증, 클라우드 서비스 확인제 | -- |
| 시스템 안정성 | 오류율 감소 — 알림 파이프라인 개선 | 75% 감소 |
| 가용성 | 서비스 규모 확장 — NCP MSA 멀티 서비스 | 5배 |
| 운영 효율 | MTTR 단축 — Prometheus/Grafana 모니터링 표준화 | 30% 단축 |
| 개발 생산성 | 개발 시간 단축 — 레거시 Django 개선 | 50% 단축 |
| 업무 처리 | 업무 처리 속도 향상 — Celery 비동기 도입 | 30% 향상 |
| 데이터 처리 | 분석 리드타임 단축 — STT 파이프라인 ETL 최적화 | 25% 단축 |
| 모니터링 | 모니터링 커버리지 확대 — 멀티 클라우드 표준화 | 300% 향상 |
| 검색 품질 | 검색 오탐률 감소 — OpenSearch 매핑/분석기 튜닝 | 30% 감소 |
| 개인 인프라 | PostgreSQL HA + Redis Cluster + Kafka 자체 구축 | 19+ 서비스 |
| 지식 공유 | 기술 블로그 운영 및 장애 대응 문서화 | -- |
