职位描述:
作为AI智算网络工程师,您将负责设计、部署和维护高性能的AI智算网络基础设施,确保AI计算集群的高效运行和稳定性。您将与AI开发团队、运维团队和系统架构师紧密合作,优化网络架构,提升数据传输效率,支持大规模AI模型训练和推理任务。
主要职责:
1. 网络架构设计与优化
- 设计和实施高性能、低延迟的AI智算网络架构,支持大规模GPU集群和分布式计算。
- 优化网络拓扑结构,确保网络带宽、吞吐量和延迟满足AI训练和推理的需求。
2. 网络部署与管理
- 负责AI智算网络的部署、配置和管理,包括交换机、路由器、负载均衡器等网络设备。
- 管理网络资源,监控网络性能,确保网络的高可用性和稳定性。
3. 故障排查与优化
- 快速响应并解决AI智算网络中的故障和性能瓶颈。
- 分析网络流量,优化网络配置,提升数据传输效率。
4. 技术支持与协作
- 为AI开发团队提供网络技术支持,确保其对网络资源的高效利用。
- 与运维团队合作,制定网络维护计划和应急预案。
5. 新技术研究与应用
- 跟踪AI智算网络领域的***趋势,评估并引入新技术以提升网络性能。
- 参与公司AI产品的制定,推动公司网络技术的持续进步。
任职要求:
1. 教育背景
- 2025届应届毕业生,计算机科学、网络工程、通信工程或相关专业本科及以上学历。
2. 相关经验
- 具备AI智算网络或高性能计算网络的实践经验者优先。
- 熟悉数据中心网络架构,有大规模AI智算网络部署和管理经验者优先。
3. 技术技能
- 熟练掌握网络协议(如TCP/IP、InfiniBand、ROCE等)和网络设备(如Cisco、Juniper、Arista、华为等)的配置与管理。
- 熟悉高性能计算网络技术,如IB(Infiniband)、RDMA(Remote Direct Memory Access)、RoCE(RDMA over Converged Ethernet)等。
- 了解AI计算框架(如TensorFlow、PyTorch)对网络的需求,具备相关优化经验者优先。
4. 其他要求
- 具备良好的问题解决能力和快速学习能力。
- 良好的团队合作精神和沟通能力,能够与跨部门团队紧密协作。
- 英语读写能力良好,能够阅读和理解技术文档。