# jd-spider **Repository Path**: wangchito/jd-spider ## Basic Information - **Project Name**: jd-spider - **Description**: 使用python爬取岗位 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-03-20 - **Last Updated**: 2025-03-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: Python ## README # Boss 直聘爬虫 这是一个用于爬取 Boss 直聘网站前端岗位信息的爬虫程序。默认爬取合肥市的前端岗位信息。 ## 功能特点 - 爬取 Boss 直聘网站的前端岗位信息 - 支持自定义城市和搜索关键词 - 数据保存为 CSV 和 JSON 格式 - 内置反爬虫机制(随机延迟、自定义请求头) ## 使用方法 ### 环境要求 - Python 3.6+ - 依赖包:requests, BeautifulSoup4 ### 安装依赖 ```bash pip install requests beautifulsoup4 ``` ### 配置 Cookie 由于 Boss 直聘有反爬机制,需要在`boss_spider.py`文件中配置自己的 Cookie: 1. 使用浏览器登录 Boss 直聘网站 2. 按 F12 打开开发者工具,切换到 Network 标签 3. 刷新页面,找到任意一个请求,在 Headers 中找到 Cookie 4. 复制 Cookie 的值,粘贴到`boss_spider.py`文件中的`self.headers`字典的`'Cookie'`字段 ### 运行爬虫 ```bash python main.py ``` ## 自定义配置 如果需要爬取其他城市或其他职位,可以修改`main.py`文件中的以下参数: ```python # 设置爬取参数 spider.city_code = '101220100' # 城市代码,默认为合肥市 spider.query = '前端' # 搜索关键词 ``` 常用城市代码: - 北京: 101010100 - 上海: 101020100 - 广州: 101280100 - 深圳: 101280600 - 杭州: 101210100 - 南京: 101190100 - 合肥: 101220100 ## 数据输出 爬取的数据将保存在`output`目录下,包含以下文件: - `合肥前端岗位.csv`: CSV 格式的岗位数据 - `合肥前端岗位.json`: JSON 格式的岗位数据 ## 注意事项 - 请合理设置爬取频率,避免对目标网站造成过大压力 - 爬取的数据仅用于个人学习和研究,请勿用于商业用途 - 使用本程序需遵守 Boss 直聘的用户协议和相关法律法规