C# 爬虫小程序
2021-04-10 16:28
标签:RoCE 获取 新建 创建线程 职责链 mat dex .config 项目 设计思路 主要基于Http Get请求网页数据,进行分析。涉及递归调用,多线程提高效率,守护线程等。 相关技术 项目结构 简单爬虫示例 以下示例为一个简单的获取HTML页面文本示例,可以做到下载文本,并进行分析,可以说是最简单的爬虫 项目代码调用示例 GitHub .NET-App/NetSpider/ C# 爬虫小程序 标签:RoCE 获取 新建 创建线程 职责链 mat dex .config 项目 原文地址:https://www.cnblogs.com/bmbh/p/9042974.htmlC# 爬虫小程序
WebClient wc = new WebClient();
byte[] response = wc.DownloadData("http://www.weather.com.cn/weather/101120501.shtml");
string ss = Encoding.UTF8.GetString(response);
public class NodeChain : AbsChain
{
#region 去除头部的'与"
///
- 创建线程管理继承类,负责重写新建职责链对象
public class ThreadManager:AbsThreadManager
{
protected override AbsChain GetChainHeader()
{
return new NodeChain();
}
}
- 设置URL入口,运行爬虫
try
{
Console.Title = System.Configuration.ConfigurationManager.AppSettings["Title"].ToString();
Console.WriteLine("Process is running!");
string url = System.Configuration.ConfigurationManager.AppSettings["URL"].ToString();
UrlQueue.GetInstance().Enqueue(url);
ThreadManager thread = new ThreadManager();
thread.Start();
}
catch (Exception ex)
{
}