이 문서에서는 C# 언어를 사용하여 네이버 뉴스를 크롤링하는 방법을 상세히 설명합니다. 크롤링을 하기 위해 필요한 라이브러리 두 가지와 코드의 구현 방법에 대해서 자세하게 알아보겠습니다.
필요한 라이브러리
- HtmlAgilityPack : HTML 문서를 파싱하기 위한 라이브러리입니다. 이 라이브러리를 사용하면 HTML 문서에서 필요한 정보를 쉽게 추출할 수 있습니다.
- System.Net.Http : Http 요청을 보내기 위한 라이브러리입니다. 이 라이브러리를 사용하면 Http 요청을 쉽게 보낼 수 있습니다.
코드 구현
using HtmlAgilityPack;
using System;
using System.Net.Http;
class Program
{
static void Main(string[] args)
{
HttpClient client = new HttpClient();
string url = "<https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100>";
HttpResponseMessage response = client.GetAsync(url).Result;
HttpContent content = response.Content;
string result = content.ReadAsStringAsync().Result;
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(result);
HtmlNodeCollection headlines = doc.DocumentNode.SelectNodes("//div[@class='cluster_group _cluster_content']//a[@class='_sp_each_title']");
foreach (HtmlNode headline in headlines)
{
Console.WriteLine(headline.InnerText);
}
}
}
위 코드는 C# 언어를 사용하여 네이버 뉴스 메인 페이지의 HTML 코드를 가져오고, HtmlAgilityPack 라이브러리를 사용하여 HTML 코드에서 헤드라인 뉴스를 추출하는 예제입니다. 코드를 실행하면 콘솔에 헤드라인 뉴스의 제목이 출력됩니다. 이 코드는 네이버 뉴스 뿐만 아니라 다른 웹페이지에서도 사용할 수 있습니다. 예를 들어, 네이버 뉴스 대신 다음 뉴스나 구글 뉴스에서도 사용할 수 있습니다.
참고 자료
'IT개발/정보 > C#' 카테고리의 다른 글
텔레그램 봇으로 네이버 뉴스 포스팅 하기 (0) | 2023.03.04 |
---|---|
C# 코드로 텔레그램 봇 만들기 (0) | 2023.03.04 |