[MLOps Engineer (경력)]
MLOps 엔지니어는 달파 내에서 AI 엔지니어들이 AI solution을 유기적으로 개발할 수 있는 MLOps 파이프라인을 설계 및 구축하는 역할을 담당합니다. 이 과정에서 다양한 서빙된 모델이나 외부 AI API 를 활용하여 모델 운영의 효율성과 안정성을 보장하는데 기여합니다. 본 포지션은 아래와 같은 MLOps의 다양한 영역에서 중요한 역할을 수행합니다.
- AI 서비스의 CI/CD 관리
- AI 서비스의 일원화된 에러 시스템 구축
- 원격 추론 환경 구축
- 내부 공통 AI SDK 개발
[주요 업무]
- Nvidia Triton 서버 기반의 원격 추론 환경의 구축 및 운영
- 원격 추론 모델의 성능 최적화 및 고가용성 서버 관리
- 모델 배포 및 테스팅 자동화를 위한 Python 기반 SDK 개발
- 모델 성능 및 에러 모니터링, 실시간 경고 시스템 구축
- 외부 API, 모델 버전 관리 및 업데이트 프로세스 최적화
- AI 엔지니어의 infra 관련 업무 지원 및 지속적 자동화 개선
- 모델 및 데이터 관리 시스템 (예: 모델 버전 관리, 데이터 드리프트 모니터링) 구축 및 운영
- 클라우드 기반 MLOps 인프라 구축 (AWS, GCP, Azure 등)
- 클라우드 환경의 서비스 모니터링을 위한 지표 개발, Datadog 기반의 모니터링 시스템 구축
[자격 요건]
- 컴퓨터 공학, 데이터 과학 또는 관련 분야 학사 학위 이상 / MLOps 또는 DevOps 관련 2년 이상의 경력
- 머신러닝/딥러닝 모델 배포 경험 (온프레미스 또는 클라우드 환경)
- 파이프라인 구축 및 자동화를 위한 MLOps 도구 경험 (mlflow, Kubeflow, airflow 등)
- Docker, Kubernetes 등 컨테이너 및 오케스트레이션 도구 사용 경험
- Python 및 Bash 스크립트 작성 능력
- Git을 통한 버전 관리와 CI/CD 파이프라인 경험
- 클라우드 플랫폼(AWS, GCP, Azure) 상에서의 모델 배포 및 운영 경험
[우대사항]
- 최신 AI 기술 트렌드에 대한 팔로업에 대한 관심이 있으신 분
- MLOps 팀 리딩 경험이 있거나 팀 구성 및 운영에 참여한 경험
- 모델 및 데이터 버전 관리를 위한 MLOps 툴 활용 경험 보유자
- 인프라 자동화 도구 경험 (e.g., Terraform, Ansible)
- Triton Server 및 TensorRT 기반 모델 배포 및 최적화 경험
- Prometheus, Datadog 등의 tool 을 기반으로 cloud 서비스에 대한 모니터링 경험
- CI/CD 파이프라인 구축 및 관리 경험