Przejdź do głównej zawartości

Html Agility Pack — uzyskujemy statystyki z bloga do DePeszy, czyli parsujemy HTML w C#

Portalowa aplikacja DePesza jest już od jakiegoś czasu w Sklepie Windows. Prace nad doszlifowaniem programu i dodaniem nowych elementów trwają i jeszcze przed końcem maja pojawi się w markecie nowa wersja. Dziś jednak chciałbym przedstawić mały element, który zostanie dodany w kolejnym wydaniu DePeszy - statystyki blogowe.

desk

Parsowanie HTML w C# - Html Agility Pack

Logowanie lub pobieranie z portalu powiadomień można było oprzeć na wymianie zapytań pomiędzy aplikacją DePesza, a serwerem dobrychprogramów (wystawiony serwis). Niestety, jeśli zechcemy uzyskać statystyki odnośnie wpisów blogowych zalogowanej osoby, musimy pokusić się o czyste parsowanie HTML.

Z tym problemem poradzimy sobie szybko przy pomocy Html Agility Pack. Jest to najlepsza biblioteka .NET do parsowania HTML. Możliwość ma ona ogromne i działa zarówno na desktopie, aplikacji mobilnej, jak i platformie Universal Windows Platform. Obsługa jej jest bardzo prosta i szybka (daaawno temu użyta przy zabawie z globalnymi statystykami portalu: dobreprogramy.pl w liczbach 2012 - 2013 ).

Licznik Blogowy - zapomniana wtyczka

Ponad wa lata temu stworzyłem wtyczkę do przeglądarek internetowych (Chrome/Firefox/Opera), która gromadziła statystyki blogowe dla zalogowanej osoby na portalu (linki: Licznik Blogowy, Licznik Blogowy - aktualizacja ). Zasada uzyskiwania danych była dość prosta, stworzona w JavaScripcie, ale bardzo skuteczna i szybka. Dzięki temu, iż blog przez ponad dwa lata nie zmienił się zupełnie, od strony zarządzania wpisami blogowymi, Licznik Blogowy działa nadal.

Pobieranie danych opiera się na poniższym pomyśle, którego podstawowe założenia zostaną użyte również przy uzyskiwaniu statystyk do DePeszy.

Pobieranie statystyk - opis

Punktem wyjściowym jest strona:

http://www.dobreprogramy.pl/MojBlog.html

do której dostęp mają osoby zalogowane. W tym miejscu znajdziemy listę ze wszystkimi wpisami danego uzytkownika portalu:

desk

Każda pozycja na liście posiada tytuł, link do wpisu z edycją (tu także w url mamy ID wpisu) oraz status. Ten ostatni określa czy post wylądował na głównej stronie bloga, a także czy jest dopiero tworzony lub został już opublikowany. Te dane pozwolą na dostanie się do szczegółowych informacji o każdym z wpisów.

Posiadając listę z linkami do edycji, będziemy wchodzili do każdego wpisu (edycja) w celu pobrania: daty ostatniej zmiany, liczby wyświetleń i komentarzy:

desk

Oczywiście lista z blogami jest stronicowa, zatem całość będzie działać rekurencyjnie:

desk

Pobieranie statystyk - parsowanie HTML za pomocą Html Agility Pack w C#

Przejdźmy zatem do samej implementacji. Wyłuskiwanie informacji z HTML poprzez Agility Pack można uzyskać dwojako: poprzez XPath (język służący do adresowania części dokumentu XML) lub za pomocą zapytań LINQ (technologia umożliwia zadawanie pytań na obiektach). Preferuję te drugie podejście (kod pisze się szybciej i łatwiej go przetestować) i takiego też będę używał w poniższych przykładach.

Kod podzielony jest na dwie główne metody. Pierwsza część odpowiedzialna jest za pobieranie wszystkich linków do wpisów blogowych. Druga metoda pobiera stronę z edycją każdego wpisu i uszykuje szczegółowe dane.

Pobieranie listy wpisów


public async Task<List<Post>> GetBlogMainStatistics(int pageNo, List<Post> postLink, HttpClient httpClient)
{

    var request = new HttpRequestMessage(HttpMethod.Get, new Uri(Const.BlogPrefix + pageNo + ".html"));
    var response = await httpClient.SendRequestAsync(request);

    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(await response.Content.ReadAsStringAsync());

    var divWithLinks = doc.DocumentNode.Descendants("div")
            .Where(d => d.Attributes.Contains("class") &&
            d.Attributes["class"].Value.Contains("contentText"))
            .FirstOrDefault();
    if (divWithLinks != null)
    {
        int lastOrderId = postLink.Select(x => x.OrderId).LastOrDefault();

        divWithLinks.Descendants("tr").ToList().ForEach(x =>
        {
            var elemA = x.Descendants("a").FirstOrDefault();
            var elemSpan = x.Descendants("span").FirstOrDefault();

            if (elemA != null && elemSpan != null)
            {
                var newPost = new Post()
                {
                    Title = elemA.InnerText,
                    Url = elemA.Attributes["href"].Value,
                    IsPublished = elemSpan.InnerText == Const.PostStatusPublished,
                    IsHomePage = elemSpan.Attributes.Contains("class") &&
                        elemSpan.Attributes["class"].Value.Contains(Const.PostHomePage),
                    OrderId = ++lastOrderId
                };
                newPost.Id = newPost.Url
                    .Split(new string[] { ",", ".html" }, StringSplitOptions.RemoveEmptyEntries)
                        .Reverse().First();
                postLink.Add(newPost);
            }


        });
    }

    var nextLink = doc.DocumentNode.Descendants("div")
        .Where(d => d.Attributes.Contains("class") &&
            d.Attributes["class"].Value.Contains("controls"))
            .FirstOrDefault();
 
    var nextUrl = (Const.BlogPrefix + (pageNo + 1) + ".html");
 
    if (nextLink != null && nextLink.Descendants("a").Where(a => 
    a.Attributes.Contains("href") &&
    a.Attributes["href"].Value == nextUrl).Count() > 0)
    {
        await GetBlogMainStatistics((pageNo + 1), postLink, httpClient);
    }

    return postLink;
}

desk

Omówmy teraz funkcję GetBlogMainStatistics . Na początku pobieramy poprzez HttpClient jedną stronę ze statystykami ( pageNo jest aktualną stroną), gdzie strona pojedyncza ma adres:


"http://www.dobreprogramy.pl/MojBlog," + pageNo + ".html"

Ładowanie danych do parsowania przez HTML Agility Pack jest proste, wystarczy podać string z czystym Htmlem (tutaj jest to pobrany dokument z odpowiedzi z serwera):


HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(await response.Content.ReadAsStringAsync());

W kolejnym kroku tworzymy zapytanie LINQ, które pobierze główny element ( div z klasą css: contentText ) zawierający tablicę z poszczególnymi linkami do wpisów:


var divWithLinks = doc.DocumentNode.Descendants("div")
            .Where(d => d.Attributes.Contains("class") &&
            d.Attributes["class"].Value.Contains("contentText"))
            .FirstOrDefault();

Zapytanie w LINQ wygląda znacznie przyjemniej niż gdybyśmy używali XPatha. Korzeniem jest DocumentNode, z którego pobieramy wszystkich potomków, którzy są elementami div . Szukamy elementów div , które posiadają atrybut classs , a w nim wartość contentText . Na tym schemacie opiera się całość działań na danym dokumencie HTML.

Teraz będąc w głównym elemencie div pobieramy wszystkie wpisy na stronie:


int lastOrderId = postLink.Select(x => x.OrderId).LastOrDefault();

divWithLinks.Descendants("tr").ToList().ForEach(x =>
{
    var elemA = x.Descendants("a").FirstOrDefault();
    var elemSpan = x.Descendants("span").FirstOrDefault();

    if (elemA != null && elemSpan != null)
    {
        var newPost = new Post()
        {
            Title = elemA.InnerText,
            Url = elemA.Attributes["href"].Value,
            IsPublished = elemSpan.InnerText == Const.PostStatusPublished,
            IsHomePage = elemSpan.Attributes.Contains("class") &&
                elemSpan.Attributes["class"].Value.Contains(Const.PostHomePage),
            OrderId = ++lastOrderId
        };
        newPost.Id = newPost.Url
         .Split(new string[] { ",", ".html" }, StringSplitOptions.RemoveEmptyEntries)
                .Reverse().First();
        postLink.Add(newPost);
    }


});

Z każdego elementu tr uzyskujemy nazwę wpisu, adres, a także status wpisu. Z adresu url można także wydobyć Id wpisu. Link jest ustandaryzowany i wygląda tak:


"http://www.dobreprogramy.pl/Blog,Edycja,"+ID_WPISU"+.html"

Funkcja GetBlogMainStatistics jest rekurencyjna i warunek stopu jest sprawdzeniem czy w pasku nawigacyjnym (na dole strony) jest adres z kolejną stroną z listą blogów:


var nextLink = doc.DocumentNode.Descendants("div")
    .Where(d => d.Attributes.Contains("class") &&
        d.Attributes["class"].Value.Contains("controls"))
        .FirstOrDefault();

var nextUrl = (Const.BlogPrefix + (pageNo + 1) + ".html");

if (nextLink != null && nextLink.Descendants("a").Where(a => 
a.Attributes.Contains("href") &&
a.Attributes["href"].Value == nextUrl).Count() > 0)
{
    await GetBlogMainStatistics((pageNo + 1), postLink, httpClient);
}

W ten sposób uzyskamy listę z blogami. Kolejnym etapem jest przejrzenie jej i pobranie każdej strony z edycją wpisu, aby uzyskać dane odnośnie liczby wyświetleń i komentarzy.

Pobieranie wyświetleń i komentarzy na blogu

Cała funkcja jest znacznie prostsza niż poprzednia:


public async Task<List<Post>> GetBlogCounters(List<Post> postLink, HttpClient httpClient)
{
    HtmlDocument doc = new HtmlDocument();

    foreach (var post in postLink)
    {
        var request = new HttpRequestMessage(HttpMethod.Get, new Uri(post.Url));
        var response = await httpClient.SendRequestAsync(request);

        doc.LoadHtml(await response.Content.ReadAsStringAsync());

        var details = doc.DocumentNode.Descendants("section")
            .Where(d => d.Attributes.Contains("class") &&
            d.Attributes["class"].Value.Contains("user-info")).LastOrDefault();
        if (details != null)
        {
            var divs = details.Descendants("div").ToList();
            if (divs.Count >= 12)
            {
                post.VisitorsCounter = int.Parse(divs[9].InnerText);
                post.CommentsCounter = int.Parse(divs[12].InnerText);
                post.DateLastModification = DateTime.ParseExact(divs[5].InnerText, 
                    "dd.MM.yyyy HH:mm", CultureInfo.InvariantCulture);
            }
        }
    }

    return postLink;
}

desk

W pętli pobieramy stronę HTML z edycją każdego wpisu i dobieramy się do tabelki ze statystykami (posiada ona klasę css user-info ). Tutaj już parsujemy ilość wpisów i wyświetlenia na typ int, a także uzyskuję datę ostatniej edycji.

Na koniec uzyskamy szczegółowe dane odnośnie każdego wpisu. Tak przygotowane statystyki będą wędrować do użytkownika.

desk

desk

DePesza - kolejna wersja

Jak już wspomniałem niedługo wrzucę do marketu nową wersję DePeszy. Prócz szczegółowych statystyk z bloga, nowa wersja będzie posiadać dużo poprawek, ulepszeń i kilka ciekawych odświeżonych elementów. Na pewno się nie zawiedziecie. Mam nadzieję, że zmiany przypadną wszystkimi do gustu.

DePesza dostępna jest w markecie Windows 10 (desktop i mobile). Bezpośredni link: DePesza.

Aktualne źródła można znaleźć na GitHub pod adresem: https://github.com/djfoxer/dp.notification

desk

Komentarze

Popularne posty z tego bloga

222 polskie gry, które warto znać - Marcin Kosman, recenzja książki

Marcin Kosman dał się poznać jako autor ciekawej pozycji o polskim game devie: "Nie tylko Wiedźmin. Historia polskich gier komputerowych". Po pięciu latach wraca z nową książką, również związaną z polską branżą grową, ale w zupełnie innej formie.222 polskie gry"222 polskie gry, które warto znać" to wyjątkowa książka. Co więcej, to nie jest książka jako taka, a bliżej jej do albumu. W języku angielskim funkcjonują one jako tzw. "Coffee table books", czyli książki/albumy bardziej do oglądania, niż do czytania.Tak jest właśnie z omawianą pozycją. W twardych okładach, w formacie B5 i na pięknym, kredowym papierze, znalazło się 222 polskich gier z lat 1983-2019. Każda strona to duża grafika, z kilkoma zdaniami o grze od autora książki, a czasem również dodatkowy, akapitem od osób tworzących dany kawałek softu.Wybór gier jest na tyle szeroki, że można śmiało powiedzieć, iż wybrano faktycznie najbardziej znaczące i rozpoznawalne tytuły. Jako, że przygodę zacząłe…

.NET Linux vs Windows - test wydajności .NET Core 3.1, .NET 5.0, a także Mono

Jakiś czas temu przedstawiłem wyniki porównania kilku środowisk uruchomieniowych platofrmy .NET - artykuł: Umarł .NET Framework, niech żyje .NET Core (oraz .NET 5) i jego wydajność (link do wpisu). Wówczas testy odpalałem na Windows 10, a sprawdzany był .NET Framework 4.8, .NET Core 3.1, a także nowy .NET 5.0 (wersja preview).Trzeba jednak zdać sobie sprawę, że .NET od dłuższego już czasu (Mono, he he) jest środowiskiem wieloplatformowym. Warto zatem sprawdzić, jak różne środowiska uruchomieniowe .NET radzą sobie na Windows i Linuxie. Mimo, iż Mono jest z nami od wielu lat, to nowy .NET Core sprawił, że tworzenie aplikacji .NET i ich hostowanie na Linuxie stało się bardzo kuszące (cena). Zatem które z nich jest szybsze i na jakiej platformie? Pod uwagę wziąłem .NET Core 3.1, .NET 5 (zwany też jako .NET Core 5) oraz poczciwe Mono.DotNetFrameworkVsCoreDo testów wykorzystałem własny projekt na GitHube:https://github.com/djfoxer/DotNetFrameworkVsCoreJest to niewielka aplikacja testująca…

Programistok - Białystok dla programistów i nie tylko

W Białymstoku powstała bardzo ciekawa inicjatywa promująca nowe technologie i trendy w programowaniu - Programistok. (Programistok na Facebooku: http://www.facebook.com/pages/Programistok/237808102923666 )Cykliczne spotkania będą omawiać m.in. programowanie na urządzenia mobilne, testowanie aplikacji, projektowanie interfejsów użytkownika czy pisanie lepszego, czystszego kodu. Każdy zainteresowany może zgłosić swoją propozycjię prezentację (20 - 30 minut).Impreza organizowana przy udziale firmy AmberBit (http://amberbit.com/ )Cele jakie przyświecają Programistokowi:integracja podlaskiego (i nie tylko) środowiska programistów poprzez wymianę pomysłów, doświadczeń wśród wielu różnych technologii związanych z internetem - nie ma narzędzi idealnych, każdy projekt warto rozpatrzyć indywidualniena spotkaniu są różnorodni ludzie, więc dobra okazja na poszukanie nowej pracy lub znalezienie pracownikaspotkanie raz w miesiącu w luźnej atmosferze (Pub Mao, Młynowa 44, http://www.mao.com.pl/ )…

Oni migają tymi kolorami w sposób profesjonalny. Narodziny gamedevu z ducha demosceny w Polsce - Piotr Marecki i Tomasz TDC Cieślewicz, recenzja książki

Tytuł książki jest mocno rozbudowany i zapewne pierwsze spojrzenie na okładkę może odstraszyć potencjalnego klienta, jednakże, warto dać szansę tej pozycji. Zaskoczeń jest kilka, chociaż nie tylko tych pozytywnych. Zatem przejdźmy do krótkiej recenzji "Oni migają tymi kolorami w sposób profesjonalny".TDC - Demoscena, Atari, Mirage i piractwo w PolsceKsiążka jest zbiorem historii opowiadanych przez Tomasza TDC Cieślewicza. Swoje przygody z IT zaczął w 1988 roku, kiedy to otrzymał Atari 800 XL. Od 1989 roku związany był z Mirage i jako jeden z najmłodszych tworzył gry na rynek polski. Był również współpracownikiem "Bajtka" i członkiem redakcji "Atari Magazynu". Bardzo mocno związany z demosceną Atari, gdzie tworzy do dziś. Zaangażowany w szkolenia i warsztaty z programowania. Obecnie redaktor Atarionline.plPrzyznaję, że wcześniej nie słyszałem o Tomaszu Cieślewiczu, ale po przeczytaniu tej książki śmiało można powiedzieć, że dziś zapewne byłby freelancerem …

Licznik Blogowy - wersja 0.6, czyli własne statystyki i wykresy tuż pod ręką

Zapewne wielu z Was pamiętam, a może i używa:) , mojej wtyczki Licznik Blogowy do najpopularniejszych przeglądarek, skierowanej do blogerów na portalu dobreprogramy.Jeśli ktoś nie kojarzycie, to w skrócie: Licznik Blogowy to wtyczka do Chroma/Opery/Firefoxa. Za jej pomocą przejrzycie szybko pełne statystyki swoich wpisów na blogu. Lista wpisów może być sortowana wg: ilości wyświetleń, ilości komentarzy, daty publikacji i adnotacji moderacji. Łatwo znajdziecie publikacje, oznaczone przez moderatorów, a to wszystko w estetycznej i miłej formie, dostosowanej do wybranej skórki na blogu.Licznik Blogowy 0.6 - czas na własne wykresy! :)Ostatnia odsłona wtyczki przyniosła ciekawe refleksje po rozmowie z szanownym Panem Mordziem. Zaproponował on, aby wtyczka mogła generować wykresy na podstawie zebranych danych. Pomysł wydał mi się niezmiernie interesujący, stąd też obecna aktualizacja (0.6) przynosi możliwość tworzenia wykresów, opierając się na zabranych danych.Używanie nowej funkcji jes…

Nie tylko Wiedźmin. Historia polskich gier komputerowych — książka, której nie wypada nie kupić [recenzja]

Wspomnień czar. Czyli dawno, dawno temu...Moja przygoda z grami zaczęła się na poważnie od Amigii 500. W zestawie wraz z komputerem dostałem Lemingi i Powermonger, w pudełkach z taniej serii od IPSu, plus kartonowe wydanie Tokiego z Wielkiej Brytanii. Oczywiście w komplecie były również potężny zestaw dyskietek z ogromną ilością oprogramowania. Każdy nośnik był ręcznie podpisany i wskazywał jawnie na nielegalne źródło pochodzenia, aczkolwiek przed rokiem 1994, czyli przed wejściem ustawy "antypirackiej" , nikt nawet się tym nie przejmował.Gry, do pewnego momentu, zawsze kojarzyły się z językiem angielskim, który dla młodego człowieka na początku lat 90tych był często dużą barierą nie do pokonania. Często zatem siadałem ze słownikiem w dłoni i mozolnie tłumaczyłem newralgiczne elementy gry, bez których dalsze przejście gier było niemożliwe. Oczywiście zdarzały się wyjątki. Słynny Flashback otrzymałem w wersji francuskiej, a mimo to przeszedłem kilka poziomów. Wiele było ró…

Visual Studio Achievements

Każdy kto gra w gry, spotkał się z terminem achievement, czyli osiągnięcie. Za każdą, rzecz jaką zrobimy w grze, czy to znalezienie sekretu, czy zwykłe przejście mapy, odblokowujemy określone osiągnięcie. Jest to obecnie na konsolach, czy na Steamie. Możemy pochwalić się osiągnięciami wśród znajomych w systemie w jakim gramy, czy na Facebooku. Prosty sposób na wydłużenie gry i zwiększenie więzi pomiędzy graczem, a grą.Visual Studio Achievements. Co ma do tego Visual Studio? Ktoś wpadł na genialny pomysł. Połączył założenia achievementów ze świata gier z kodowaniem w Visual Studio! :) Wszystko zaczęło się na www.reddit.com, gdzie ktoś z nudów/dla żartów dodał wątek "A co gdyby, Visual Studio miało osiągnięcia?". Okazało się, że pomysł chwycił na tyle, iż powstał... plugin (darmowy) do Visual Studio! Każdy z Was może go ściągnąć i zainstalować w Visualu. Od tej chwili będzie zbierał osiągnięcia, niczym w grach wideo :)Tak jak w grach, za konkretne czynności odblokowujemy osi…

Tania, przeceniona prasa - lukratywny biznes na pograniczu prawa? Czyli CD-Action za 4zł

Zapewne większość z was zna pojęcie "taniej prasy" lub "przecenionej prasy". Są to najczęściej miejsca, gdzie można kupić gazety, magazyny i inne dobra kryjące się pod definicją prasy. Ich cechą jest to, iż nie są to aktualne wydanie, ale w większości przypadków "przeterminowane" egzemplarze, które zostały zastąpione aktualnymi numerami. Można zatem znaleźć tam magazyn sprzed roku lub dwóch, ale także numer CD-Action za 4zł, z jeszcze działającym kodem na gry, który dosłownie kilka dni wcześniej można było kupić w saloniku z prasą za 10,99zł.Jak to powinno być?Przeglądając strony w sieci natknąłem się na kilka artykułów, które opisują dany problem. Zgodnie z umowami, dystrybutorzy prasy nieaktualne numery powinni zwracać do wydawców. Drugą opcją jest zaś oddawanie takiej prasy na makulaturę. Zanim jednak trafi ona na "wysypisko" powinna zostać naznaczona farbą lub przecięta w taki sposób, aby nie nadawała się do odsprzedaży.A jak jest?Trudno jed…

Licznik Blogowy 2017 — niezbędnik blogera (Chrome/Opera/Firefox)

Nadeszła ta chwila. Po wielu latach oficjalnie światło dziennie ujrzała finalna wersja Licznika Blogowego. Dodatku do przeglądarki www, który pozwala na zbieranie danych o każdym blogu na portalu (nawet bez logowania!) i przedstawieniu statystyk w formie tekstowej i graficznej.HistoriaHistoria Licznika Blogowego sięga roku 2014. Wówczas to na początku roku powstaje dodatek do Chrome, który zbiera dane odnośnie wyświetleń wszystkich wpisów blogowych zalogowanej osoby. W przeciągu najbliższych miesięcy wtyczka otrzymuje możliwość instalacji na przeglądarkach Firefox i Opera, a także tworzenie wykresów na podstawie zebranych danych.Niestety w przeciągu lat portal przeszedł na https, a możliwość instalacji wtyczek spoza marketu stała się utrudniona lub nawet niemożliwa na wspieranych przeglądarkach. W ostatnim czasie otrzymałem sporo zapytań odnośnie reaktywacji wtyczki i przyszedł ten czas, aby zaprezentować finalną wersję.Licznik BlogowyLicznik Blogowy przeznaczony jest do analizy blo…