SK텔레콤
ML Platform & HPC Engineer
이런 일을 합니다.
주요 수행업무 및 역할
■ GPT-3 와 같은 대형 모델 학습을 위한 Hyperscale AI 인프라 및 학습 플랫폼을 구축하고 운영
■ ML 학습과 평가, 배포에 이르는 전반적인 Workflow를 구성하고 개발 및 운영 프로세스를 조율하고 통합
– HPC infrastructure 설계, 구축 및 운영
• 초고속 네트워크(InfiniBand) 기반의 GPU HPC 시스템 설계, 구성 및 운영
• H/W Platform의 확장성, 안정성, 부하, Throughput, Latency 등에 대한 구성 요소 최적화
– Distributed Deep Learning Platform 구축 및 운영
• Slurm 및 Kubernetes 기반의 On-Premise 분산 DL 학습 플랫폼의 구축, 운영 및 최적화
• AWS(Parallel Cluster), Azure(CycleCloud), OCI (HPC)등 Cloud기반 분산 DL학습 플랫폼 구축/운영
및 최적화
– AI Workflow Management
• 데이터 엔지니어 및 ML 모델러들과 협력하여 데이터 전처리, 모델 학습 및 배포에 이어지는
On-Prem 과 Cloud 인프라 설계 및 운영
• 데이터 처리 과정, 모델 학습 및 배포 과정에 대한 다양한 ML 관리 시스템을 설계, 배포 및 구성
■ ML 학습과 평가, 배포에 이르는 전반적인 Workflow를 구성하고 개발 및 운영 프로세스를 조율하고 통합
– HPC infrastructure 설계, 구축 및 운영
• 초고속 네트워크(InfiniBand) 기반의 GPU HPC 시스템 설계, 구성 및 운영
• H/W Platform의 확장성, 안정성, 부하, Throughput, Latency 등에 대한 구성 요소 최적화
– Distributed Deep Learning Platform 구축 및 운영
• Slurm 및 Kubernetes 기반의 On-Premise 분산 DL 학습 플랫폼의 구축, 운영 및 최적화
• AWS(Parallel Cluster), Azure(CycleCloud), OCI (HPC)등 Cloud기반 분산 DL학습 플랫폼 구축/운영
및 최적화
– AI Workflow Management
• 데이터 엔지니어 및 ML 모델러들과 협력하여 데이터 전처리, 모델 학습 및 배포에 이어지는
On-Prem 과 Cloud 인프라 설계 및 운영
• 데이터 처리 과정, 모델 학습 및 배포 과정에 대한 다양한 ML 관리 시스템을 설계, 배포 및 구성
이런 분을 찾습니다.
필요역량 및 직무경험
– 총 보유경력 : 2년 이상 (학력/전공 : 학사 이상 )
– Linux 운영 체제 기반의 대규모 HPC Cluster 구축, 관리 경험
– 시스템 모니터링 분석, 자동화 설계/구축/분석 관련 기술과 경험
– AWS 등 Cloud 기반 서비스구축 경험 및 Architecture 설계 능력
– Linux 운영 체제 기반의 대규모 HPC Cluster 구축, 관리 경험
– 시스템 모니터링 분석, 자동화 설계/구축/분석 관련 기술과 경험
– AWS 등 Cloud 기반 서비스구축 경험 및 Architecture 설계 능력
이런 경험이 있다면
더욱 좋습니다.
더욱 좋습니다.
우대사항
– 컴퓨터공학 전공자
– 기술/경험
• PBS등과 같은 HPC Job scheduler에 대한 경험
• Rootless Container 기술 (Rootless Docker, Singularity , Enroot) 중급 이상
• Kubernetes, Kubeflow 중급 이상
• 대규모 D/L 분산 학습 플랫폼의 설계/구축/성능 최적화 관련 기술과 경험
• Inference Platform (Triton, BentoML, Seldon, KFserving)
• Deep Learning Framework (Pytorch, Tensorflow
– 엔터프라이즈 기업 또는 연구소에서 대규모 HPC 클러스터 구축 및 운영 경험
– 엔터프라이즈 기업, 신기술 기업에서 MLOps 관련 프로젝트 수행 경험
– HPC, MLOps 관련 Open Source 참여 경험
– 기술/경험
• PBS등과 같은 HPC Job scheduler에 대한 경험
• Rootless Container 기술 (Rootless Docker, Singularity , Enroot) 중급 이상
• Kubernetes, Kubeflow 중급 이상
• 대규모 D/L 분산 학습 플랫폼의 설계/구축/성능 최적화 관련 기술과 경험
• Inference Platform (Triton, BentoML, Seldon, KFserving)
• Deep Learning Framework (Pytorch, Tensorflow
– 엔터프라이즈 기업 또는 연구소에서 대규모 HPC 클러스터 구축 및 운영 경험
– 엔터프라이즈 기업, 신기술 기업에서 MLOps 관련 프로젝트 수행 경험
– HPC, MLOps 관련 Open Source 참여 경험