# jd-spider

**Repository Path**: wangchito/jd-spider

## Basic Information

- **Project Name**: jd-spider
- **Description**: 使用python爬取岗位
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-03-20
- **Last Updated**: 2025-03-20

## Categories & Tags

**Categories**: Uncategorized

**Tags**: Python

## README

# Boss 直聘爬虫

这是一个用于爬取 Boss 直聘网站前端岗位信息的爬虫程序。默认爬取合肥市的前端岗位信息。

## 功能特点

- 爬取 Boss 直聘网站的前端岗位信息
- 支持自定义城市和搜索关键词
- 数据保存为 CSV 和 JSON 格式
- 内置反爬虫机制（随机延迟、自定义请求头）

## 使用方法

### 环境要求

- Python 3.6+
- 依赖包：requests, BeautifulSoup4

### 安装依赖

```bash
pip install requests beautifulsoup4
```

### 配置 Cookie

由于 Boss 直聘有反爬机制，需要在`boss_spider.py`文件中配置自己的 Cookie：

1. 使用浏览器登录 Boss 直聘网站
2. 按 F12 打开开发者工具，切换到 Network 标签
3. 刷新页面，找到任意一个请求，在 Headers 中找到 Cookie
4. 复制 Cookie 的值，粘贴到`boss_spider.py`文件中的`self.headers`字典的`'Cookie'`字段

### 运行爬虫

```bash
python main.py
```

## 自定义配置

如果需要爬取其他城市或其他职位，可以修改`main.py`文件中的以下参数：

```python
# 设置爬取参数
spider.city_code = '101220100'  # 城市代码，默认为合肥市
spider.query = '前端'  # 搜索关键词
```

常用城市代码：

- 北京: 101010100
- 上海: 101020100
- 广州: 101280100
- 深圳: 101280600
- 杭州: 101210100
- 南京: 101190100
- 合肥: 101220100

## 数据输出

爬取的数据将保存在`output`目录下，包含以下文件：

- `合肥前端岗位.csv`: CSV 格式的岗位数据
- `合肥前端岗位.json`: JSON 格式的岗位数据

## 注意事项

- 请合理设置爬取频率，避免对目标网站造成过大压力
- 爬取的数据仅用于个人学习和研究，请勿用于商业用途
- 使用本程序需遵守 Boss 直聘的用户协议和相关法律法规