【爬虫工程师招聘】_中国科学院信息工程研究所招聘信息-应届生求职网

首页职位推荐实习 Deadline 海归

宣讲会空中宣讲分类求职

···

爬虫工程师

8千-1.5万

北京-海淀区

在校生/应届生

本科

全职

更新于05-04

先聊聊

职位信息

岗位职责：
1、负责设计和开发分布式的网络爬虫，数据的采集与爬取、调度、监控、自动化运行等；共同解决实际开发过程碰到的各类问题（优化调度、并发、覆盖率等），提升数据抓取的效果和性能；
2、负责智能采集系统设计与研发，如采集任务调度，页面解析和结构化抽取，海量数据存储和读取等；
3、负责网页抽取，网页质量技术算法的研究和开发，提升数据抓取的效率和质量；负责主流网站、APP数据的爬取方法总结，负责非定向数据的清洗、整理、整合及合并等工作；
4、负责爬取数据的去重、解析入库、爬虫系统的监控和异常警报；
5、根据各个业务需求，爬取全网海量来源的数据，解决各类反爬问题；
6、完成上级安排相关工作。
任职要求：
1、全日制本科以上学历，计算机相关专业；
2、至少有1年以上数据爬取经验；
3、熟练掌握基于爬虫框架Selenium、Scrapy、PySpider、Crawley、Puppeteer；了解主流爬虫框架工具，熟悉HTTP/TCP等网络协议；
4、熟悉浏览器运行原理,懂得JS逆向，熟悉Web端常用反爬技术；
5、熟悉抓包工具(Wireshark/Fiddler/Charles等)；
6、熟练使用一种以上数据库(Doris/MySQL/MongoDB)与消息中间件Kafka；
7、熟悉各种大数据相关框架组件优先，如Kafka、Hadoop、Spark、ES、Hive等；
8、具有反爬经验，对JS逆向、封IP、复杂验证码、模拟 Cookie 登录等，有过实际经验；
9、有大规模数据采集经验优先
10、踏实肯干，团队合作，有研究精神

工作地址

中国科学院信息工程研究所东南门

应届生安全提醒

求职过程中如果遇到违规收费、信息不实、以招聘名义的培训收费或者微信营销等虚假招聘行为，请保留证据，维护自己的合法权益。谨防上当受骗！

公司信息

中国科学院信息工程研究所，简称信工所，英文全称Institute of Information Engineering，Chinese Academy of Sciences，缩写为IIE CAS，是2011年批准成立的中国科学院直属科研机构。研究所按照“软硬兼修，矛盾兼容，开合有法，张弛有度”的办所方针，秉承“打造一流平台，集聚一流人才，支撑国家需求，引领学科发展，努力成为国家在信息工程领域的战略科技力量”的组织目标，面向国家战略需求，在信息安全科技领域，开展基础理论与前沿技术研究，开发应用性技术与系统，为国家信息化进程提供核心关键技术支撑与系统解决方案。

下载App 查看公司其他职位

公司信息更多职位