岗位职责:
负责图像/视频生成与处理方向的模型研发与优化(如数字人,人脸驱动、图像修复等);
参与语音克隆、语音合成等相关技术的模型选择、微调与部署;
基于 LLM(如Deepseek,通用千问,ChatGPT、InternLM 等)进行能力微调、智能体流程设计,了解RAG技术;
研究与实现多模态大模型融合方案,推动图文声结合的智能系统实现;
搭建可复用模型,并支持工程化部署(本地 / 云端 / Web);
跟踪国内外最新研究进展(arXiv/ACL/CVPR/NeurIPS等),并落地前沿技术。
任职要求
基础能力:
计算机、电子工程、人工智能等相关专业本科及以上学历(能力优秀可放宽);
熟练掌握Python编程语言,有实际项目代码的开发经验
熟悉 FastAPI / Flask / Gradio 等 AI 接口或展示开发;
熟悉常见的声音克隆,数字人开源项目,能够在开源项目的基础上进行优化
扎实的机器学习 / 深度学习理论基础,熟悉使用 PyTorch / TensorFlow;
了解常见 CV/NLP/ASR 框架,如 OpenCV、Transformers、Diffusers、ESPnet、VITS、Whisper、SadTalker、StyleGAN 等;
专业技能:
熟练掌握至少一个方向的模型设计与优化:
声音克隆 / 合成(如 TTS、Voice Cloning、声纹识别等);
计算机视觉(如人脸分析、人像合成、图像增强、图像生成等);
大模型应用(熟悉微调、指令优化、熟悉LoRA、RAG、多模态融合等);
使用平台进行智能体 Agent 系统构建,具有使用FastGPT,Dify,n8n,Coze平台经验优先等;
有实际项目开发经验,包括但不限于训练、推理、部署、性能优化等;
加分项(Bonus):
有数字人、AI虚拟人、智能客服相关项目经验;
有实际开源贡献或技术博客。
福利待遇:
1、带薪生日假、年假、不定期团建、节假日福利等等;
2、5天的培训,让你快速上岗
3、每季度一次的大团建、月度小团建、生日福利、生日带薪假,年假,司龄奖金、全勤奖;
4、公司均为90后、00后,公司扁平化管理,工作氛围轻松;
5、每年两次晋升机会和调薪机会。
工作时间:9:00-18:00,午休一个半小时,周末大小休,节假日正常