# 朴素贝叶斯文本分类器 **Repository Path**: zl_java/naive-bayesian-text-classifier ## Basic Information - **Project Name**: 朴素贝叶斯文本分类器 - **Description**: 大数据期末大作业 数据挖掘, 爬虫相关,纯python朴素贝叶斯分类器 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: https://24.221.145.31 - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2023-01-06 - **Last Updated**: 2023-01-06 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # README > **项目所有者: CameronWang-cell(王艺驰)的代码仓库** > **邮箱:1069836392@qq.com** ## 项目介绍 **简介:** 运用爬虫技术以及朴素贝叶斯分类对抓取的新闻进行分类, 分析每种新闻在网站中的占比 已定义的新闻类别: 财经 科技 汽车 房产 体育 娱乐 其他 #### 1. 环境以及依赖 - python环境 - python==3.9 - 依赖的第三方库: - jieba - parseurl - bs4 - numpy #### 2. 使用模型 朴素贝叶斯分类器 实现:纯python实现 #### 3. 数据来源 新闻共分7类,新闻信息在此采集: 1 财经 http://finance.qq.com/l/201108/scroll_17.htm 2 科技 http://tech.qq.com/l/201512/scroll_02.htm 3 汽车 http://auto.qq.com/l/201512/scrollnews_02_2.htm 4 房产 http://gd.qq.com/l/house/fcgdxw/more_7.htm 5 体育 http://sports.qq.com/l/201512/scrollnews_01_2.htm 6 娱乐 http://ent.qq.com/l/201108/scrollents_18_2.htm 7 其他 http://news.ifeng.com/listpage/16873/1/1/46629832/46630185/list.shtml #### 4. 项目结构 目录 - bayes_training_outcome: 分类结果输出向量 - data: 朴素贝叶斯模型训练集 - test: 测试集(爬虫爬取) - training: 训练集(网络下载数据集) - medfiles: 词数统计(永久化储存) - outcome: 最终格式化的输出结果 python文件 - bayesclassifier: 贝叶斯模型以及参数定义 - bayestraining: 模型训练过程定义 - fre: 统计词频 - parseurl: 爬虫 包括请求, 解析, 存储 - visualize: 可视化