爬虫工程师
8千-1.5万
 北京-海淀区
 在校生/应届生
 本科
 全职
 更新于05-04
收藏
先聊聊
职位信息

岗位职责:
1、负责设计和开发分布式的网络爬虫,数据的采集与爬取、调度、监控、自动化运行等;共同解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等),提升数据抓取的效果和性能;
2、负责智能采集系统设计与研发,如采集任务调度,页面解析和结构化抽取,海量数据存储和读取等;
3、负责网页抽取,网页质量技术算法的研究和开发,提升数据抓取的效率和质量;负责主流网站、APP数据的爬取方法总结,负责非定向数据的清洗、整理、整合及合并等工作;
4、负责爬取数据的去重、解析入库、爬虫系统的监控和异常警报;
5、根据各个业务需求,爬取全网海量来源的数据,解决各类反爬问题;
6、完成上级安排相关工作。
任职要求:
1、全日制本科以上学历,计算机相关专业;
2、至少有1年以上数据爬取经验;
3、熟练掌握基于爬虫框架Selenium、Scrapy、PySpider、Crawley、Puppeteer;了解主流爬虫框架工具,熟悉HTTP/TCP等网络协议;
4、熟悉浏览器运行原理,懂得JS逆向,熟悉Web端常用反爬技术;
5、熟悉抓包工具(Wireshark/Fiddler/Charles等);
6、熟练使用一种以上数据库(Doris/MySQL/MongoDB)与消息中间件Kafka;
7、熟悉各种大数据相关框架组件优先,如Kafka、Hadoop、Spark、ES、Hive等;
8、具有反爬经验,对JS逆向、封IP、复杂验证码、模拟 Cookie 登录等,有过实际经验;
9、有大规模数据采集经验优先
10、踏实肯干,团队合作,有研究精神
工作地址
 中国科学院信息工程研究所东南门
应届生安全提醒
求职过程中如果遇到违规收费、信息不实、以招聘名义的培训收费或者微信营销等虚假招聘行为,请保留证据,维护自己的合法权益。谨防上当受骗!
公司信息
中国科学院信息工程研究所,简称信工所,英文全称Institute of Information Engineering,Chinese Academy of Sciences,缩写为IIE CAS,是2011年批准成立的中国科学院直属科研机构。研究所按照“软硬兼修,矛盾兼容,开合有法,张弛有度”的办所方针,秉承“打造一流平台,集聚一流人才,支撑国家需求,引领学科发展,努力成为国家在信息工程领域的战略科技力量”的组织目标,面向国家战略需求,在信息安全科技领域,开展基础理论与前沿技术研究,开发应用性技术与系统,为国家信息化进程提供核心关键技术支撑与系统解决方案。
下载App 查看公司其他职位
公司信息更多职位
img中国科学院信息工程研究所
事业单位
1000-5000人
学术/科研
这个有截止日期吗
这个具体也不清楚啊 没说具体截止日期 可以去公众号看看
这个职位出来好找工作吗?
感觉应该还可以
求校招笔试题库!!!
同学,你找到了吗?
下载App 参与互动