# SmallHorse.Spider **Repository Path**: lxg0808/SmallHorse.Spider ## Basic Information - **Project Name**: SmallHorse.Spider - **Description**: Spider Website Data 网站数据采集器 - **Primary Language**: C# - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 5 - **Created**: 2018-07-21 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # SmallHorse.Spider Spider Website Data 原理:基于HtmlAgilityPack类库分析HTML页面的结构。 采集各种网站数据,目前已可以采集如下网站: Craigslist www.Craigslist.org Craigslist是美国大型免费分类广告网站。是美国最火的。该网站上没有图片,只有密密麻麻的文字,标着各种生活信息。类似国内的58同城。 Trulia www.Trulia.com Trulia是美国房地产搜索引擎。用户可以根据邮政编码搜索特定区域的待售房屋,也可以搜索全美范围内的相关信息。 Edmunds www.Edmunds.com Edmunds是美国第二大汽车网,数据量仅次于KBB。 淘宝网 www.taobao.com 天猫 www.tmall.com 豆瓣东西 dongxi.douban.com