岗位职责:
1、负责设计和开发分布式的网络爬虫,数据的采集与爬取、调度、监控、自动化运行等;共同解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等),提升数据抓取的效果和性能;
2、负责智能采集系统设计与研发,如采集任务调度,页面解析和结构化抽取,海量数据存储和读取等;
3、负责网页抽取,网页质量技术算法的研究和开发,提升数据抓取的效率和质量;负责主流网站、APP数据的爬取方法总结,负责非定向数据的清洗、整理、整合及合并等工作;
4、负责爬取数据的去重、解析入库、爬虫系统的监控和异常警报;
5、根据各个业务需求,爬取全网海量来源的数据,解决各类反爬问题;
6、完成上级安排相关工作。
任职要求:
1、全日制本科以上学历,计算机相关专业;
2、至少有1年以上数据爬取经验;
3、熟练掌握基于爬虫框架Selenium、Scrapy、PySpider、Crawley、Puppeteer;了解主流爬虫框架工具,熟悉HTTP/TCP等网络协议;
4、熟悉浏览器运行原理,懂得JS逆向,熟悉Web端常用反爬技术;
5、熟悉抓包工具(Wireshark/Fiddler/Charles等);
6、熟练使用一种以上数据库(Doris/MySQL/MongoDB)与消息中间件Kafka;
7、熟悉各种大数据相关框架组件优先,如Kafka、Hadoop、Spark、ES、Hive等;
8、具有反爬经验,对JS逆向、封IP、复杂验证码、模拟 Cookie 登录等,有过实际经验;
9、有大规模数据采集经验优先
10、踏实肯干,团队合作,有研究精神