C#实战 - 使用 C# 编写简单的网页爬虫
创始人
2024-11-15 01:33:23

作者:逍遥Sean
简介:一个主修Java的Web网站\游戏服务器后端开发者
主页:https://blog.csdn.net/Ureliable
觉得博主文章不错的话,可以三连支持一下~ 如有疑问和建议,请私信或评论留言!

前言
在本篇博文中,我们将介绍如何使用 C# 编写一个简单的网页爬虫,来获取指定网页的内容。我们将使用 .NET Core 环境,并依赖于 HtmlAgilityPack 库来解析 HTML。让我们逐步实现这个爬虫的过程。

使用 C# 编写简单的网页爬虫

        • 准备工作
        • 实现网页爬虫
        • 解释代码
        • 运行结果
        • 结论

准备工作
  1. 安装 HtmlAgilityPack 库

    HtmlAgilityPack 是一个流行的 HTML 解析库,用于处理 HTML 文档的结构和内容。您可以通过 NuGet 管理器或者命令行安装它:

    Install-Package HtmlAgilityPack 
  2. 创建一个新的 .NET Core 项目

    打开 Visual Studio 或者使用命令行工具创建一个新的 .NET Core 控制台应用程序:

    dotnet new console -n SimpleWebCrawler cd SimpleWebCrawler 
  3. 引用所需的命名空间

    在程序的顶部引入需要的命名空间:

    using HtmlAgilityPack; using System; using System.Net.Http; using System.Threading.Tasks; 
实现网页爬虫

现在,让我们开始编写网页爬虫的代码。以下是一个简单的示例,演示如何获取指定网页的标题和所有的链接。

using HtmlAgilityPack; using System; using System.Net.Http; using System.Threading.Tasks;  class Program {     static async Task Main(string[] args)     {         string url = "https://example.com"; // 设置要爬取的网页 URL          var httpClient = new HttpClient();         var html = await httpClient.GetStringAsync(url);          var htmlDocument = new HtmlDocument();         htmlDocument.LoadHtml(html);          // 获取网页标题         var titleNode = htmlDocument.DocumentNode.SelectSingleNode("//title");         string title = titleNode.InnerText.Trim();          Console.WriteLine($"网页标题: {title}");          // 获取所有链接         var linkNodes = htmlDocument.DocumentNode.SelectNodes("//a[@href]");         Console.WriteLine("\n所有链接:");         foreach (var linkNode in linkNodes)         {             string link = linkNode.Attributes["href"].Value;             Console.WriteLine(link);         }     } } 
解释代码
  • HttpClient:用于发起 HTTP 请求并获取网页内容。
  • HtmlDocumentHtmlNode:来自 HtmlAgilityPack,用于解析和查询 HTML 文档的节点和内容。
  • Main 方法:程序的入口点,异步执行网页爬取操作。
  • url 变量:指定要爬取的网页地址。
运行结果

编译并运行程序,将会输出指定网页的标题和所有链接:

网页标题: Example Domain  所有链接: https://www.iana.org/domains/example 
结论

通过这篇博文,我们学习了如何使用 C# 编写一个简单的网页爬虫,获取网页的标题和所有链接。这只是一个入门级的示例,您可以根据实际需求扩展功能,例如存储数据、处理异常或者实现更复杂的爬取逻辑。希望这篇文章能帮助您开始探索和应用 C# 中的网页爬虫技术!

相关内容

热门资讯

裸辞做“一人公司”,我后悔了 去年这个时候,一位以色列程序员正在东南亚旅行。他顺手把一个在脑子里转了很久的想法做成了产品,一个让任...
南京建成国内首个Pre-6G试... 4月21日,2026全球6G技术与产业生态大会在南京开幕。全息互动技术展台前,一名远在北京的工作人员...
超梵求职受邀参加“2025抖音... 超梵求职受邀参加“2025抖音巨量引擎成人教育行业生态大会”,探讨分享优质内容传播,服务万千学员。 ...
摩托罗拉Razr 2026(R... IT之家 4 月 22 日消息,摩托罗拉宣布新一代 Razr 折叠手机将于 4 月 29 日在美国发...
库克卸任,特纳斯领航:苹果新纪... 苹果首席执行官蒂姆·库克将卸任,硬件工程主管约翰·特纳斯将接任,苹果公司今天宣布此事。 库克将在夏季...