팀 소개
빠르게 성장하는 AI 컴패니언 시장에서, 영상 기반의 실시간 커뮤니케이션 경험으로 새로운 기준을 만들고자 하는 팀입니다. 텍스트 중심이 아닌 보고, 듣고, 반응하는 AI 캐릭터와의 실시간 소통을 구현합니다.
직무 설명
AI 컴패니언과 유저가 실시간 음성·영상 환경에서 자연스럽게 소통할 수 있도록 하는 핵심 ML 기술을 개발합니다. 단순 모델 연구가 아닌 실시간 인터랙션 환경에서의 대화·영상·음성 파이프라인을 제품 수준으로 구현하는 역할입니다.
Focus Area 1: Real-time Video Interaction
AI 컴패니언이 말하고 반응하는 모습을 실시간으로 자연스럽게 보고 느낄 수 있는 영상 기술을 개발합니다.
- 유저 발화 및 대화 맥락에 맞춰 자연스러운 립싱크와 모션을 갖는 영상을 실시간으로 생성·재생 (Interactive Avatar / Talking Head / Lip-sync)
- 영상·음성·대화 모델을 연결하는 end-to-end 실시간 파이프라인 개발
- 실제 유저 사용 환경에서의 지연(latency), 영상 품질, 비용 최적화
Focus Area 2: Conversation
영상 통화 환경에 최적화된 대화를 설계하여, 유저가 계속 대화하고 싶어지는 관계 중심의 대화 경험을 만듭니다.
- 유저가 AI Companion과 계속 대화하고 싶어지는 대화 구조 및 패턴 설계·고도화
- 실시간 음성·영상 기반 대화 환경에 최적화된 대화 로직 설계
- 장기 기억 및 관계 변화에 따라 달라지는 대화 경험 구현
- 실 서비스 환경에서의 대화 품질을 모니터링하고, 사용자 반응을 기반으로 지속적인 개선
이런 분과 잘 맞아요
- 모델 성능만큼이나, 사용자가 실제로 어떻게 느끼는지를 중요하게 생각하는 분
- 기술뿐 아니라 기획적 시각을 함께 활용해, 정답이 없는 문제를 스스로 정의하고 풀어가는 것을 즐기는 분
- AI와 사람 사이에 유의미한 관계가 만들어질 수 있다고 믿는 분
필수 역량
- 석·박사 과정을 포함해 AI/ML 관련 경력 3년 이상, 그중 현업 경력 2년 이상
- AI/ML 전반에 대한 탄탄한 기본기를 바탕으로, 최소 한가지 이상의 특정 도메인에 대해 깊이 있게 파고든 경험
- 모델 연구에 그치지 않고, 이를 실제 제품에 적용하고 서비스화하는 과정에 관심과 경험
- ML 모델을 실제 서비스 환경에 서빙해 본 경험
- 한국어로 원활한 의사소통이 가능한 분
우대사항
Video Interaction 관련
- Talking Head, Lip-sync 등 Virtual Human / Avatar 관련 연구 또는 개발 경험
- Flow-based / Diffusion 기반 영상·이미지 생성 모델에 대한 이해 및 활용 경험
Conversation 관련
- 음성 기반 대화 시스템(STT / LLM / TTS 혹은 End-to-end 모델) 연구 또는 개발 경험
- 페르소나 기반, 엔터테인먼트, 장기 기억 챗봇 등 대화 중심 서비스 설계 경험
공통
- 생성형 AI를 활용한 B2B/B2C 서비스 또는 피쳐 개발·운영 경험
- ML 모델을 마이크로서비스 형태로 구현·배포·운영해 본 경험 (Cloud 환경, 컨테이너, Kubernetes 등)
- 실제 서비스에서 ML을 활용해 유저 리텐션, 체류 시간 등 비즈니스 지표 개선에 기여한 경험
- 제품에 대한 열정을 가지고 사용자 경험을 지속적으로 개선해 나가고자 하는 분
- AI/ML 관련 주요 학회 및 저널 게재 실적
채용 절차
서류 전형 → 1차 면접 → 2차 면접 → 처우 협의 → 최종 합격
- 정규직은 수습기간 3개월이 포함됩니다. 수습기간 중 급여 등 처우에 차등이 없으며, 평가 결과에 따라 수습기간이 연장 또는 종료될 수 있습니다.
- 지원서류 및 채용절차 전반에서 허위 사실이 있을 경우 채용이 취소될 수 있습니다.
- 필요 시, 추가 인터뷰, 직무 테스트, 그리고 지원자의 동의 하에 레퍼런스 체크가 진행될 수 있습니다. 또한 레퍼런스 체크 결과에 따라 채용이 취소될 수 있습니다.