728x90
반응형
LIST

이 문서에서는 C# 언어를 사용하여 네이버 뉴스를 크롤링하는 방법을 상세히 설명합니다. 크롤링을 하기 위해 필요한 라이브러리 두 가지와 코드의 구현 방법에 대해서 자세하게 알아보겠습니다.

필요한 라이브러리

  1. HtmlAgilityPack : HTML 문서를 파싱하기 위한 라이브러리입니다. 이 라이브러리를 사용하면 HTML 문서에서 필요한 정보를 쉽게 추출할 수 있습니다.
  2. System.Net.Http : Http 요청을 보내기 위한 라이브러리입니다. 이 라이브러리를 사용하면 Http 요청을 쉽게 보낼 수 있습니다.

코드 구현

using HtmlAgilityPack;
using System;
using System.Net.Http;

class Program
{
    static void Main(string[] args)
    {
        HttpClient client = new HttpClient();
        string url = "<https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100>";

        HttpResponseMessage response = client.GetAsync(url).Result;
        HttpContent content = response.Content;
        string result = content.ReadAsStringAsync().Result;

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(result);

        HtmlNodeCollection headlines = doc.DocumentNode.SelectNodes("//div[@class='cluster_group _cluster_content']//a[@class='_sp_each_title']");

        foreach (HtmlNode headline in headlines)
        {
            Console.WriteLine(headline.InnerText);
        }
    }
}

위 코드는 C# 언어를 사용하여 네이버 뉴스 메인 페이지의 HTML 코드를 가져오고, HtmlAgilityPack 라이브러리를 사용하여 HTML 코드에서 헤드라인 뉴스를 추출하는 예제입니다. 코드를 실행하면 콘솔에 헤드라인 뉴스의 제목이 출력됩니다. 이 코드는 네이버 뉴스 뿐만 아니라 다른 웹페이지에서도 사용할 수 있습니다. 예를 들어, 네이버 뉴스 대신 다음 뉴스나 구글 뉴스에서도 사용할 수 있습니다.

참고 자료

728x90
반응형
LIST

+ Recent posts