岗位职责:
1)参与大模型推理系统设计和研究,进行服务层、推理层和算法层的优化探索,实现整体效率提升。
2)进行性能分析和优化,包括算法、数据结构、并行计算和内存管理,并研究和实现高性能计算算法和技术,以优化深度学习超大模型的推理过程。
3)研究和应用Transformer架构以及相关领域的最新研究成果,使用Python、C++和CUDA编写高效代码,以提高深度学习模型的运行速度和资源利用率。
4)与团队成员合作,共同解决技术挑战,并提出改进深度学习模型性能的创新方法。
任职资格:
1)本科及以上,计算机科学/软件工程相关专业背景。
2)熟练掌握Python和C++编程语言,能够高效地编写可维护和可扩展的代码。
3)了解深度学习等技术,熟悉大模型训练、推理和部署者优先。
4)具备CUDA编程经验,熟悉GPU加速计算和并行计算的原理和技术。
深入理解Transformer架构,包括Self-Attention、Positional Encoding等关键概念。
5)加分项:掌握模型量化,稀疏等技术;在高性能计算、深度学习优化或相关领域有研究或项目经验;了解MLLM、FasterTransformer、Text Generation Inference、OpenAI Triton并有上手经验。