Bad Word Detector — własna wtyczka do detekcji wulgaryzmów w Visual Studio

Tworząc w IDE zapewne nieraz natknęliście się na kod źródłowy, który zawierał wulgaryzmy czy to w postaci komentarza, czy to w postaci nazw zmiennych. Również my sami lubimy wstawić gdzieś w kodzie "kupę" lub inny równie ciekawy zwrot.

Niestety czasem takie "kwiatki" wychodzą na produkcję i nie są może czymś karygodnym lub niebezpiecznym, ale wizerunkowo raczej nikt na tym nie zyskuje. Ostatnio pisał Niebezpiecznik chociażby o "fakach" na stronce OKE

desk

a kilka dni wcześniej podobnie "wpadł" Citibank.

Tworząc na konkurs wtyczkę Healthy With VS wpadłem na pomysł, aby stworzyć dodatek do Visual Studio, który mógłby zaradzić takim problemom. Bad Word Detector, bo tak nazwałem ten nano-projekt, wykrywa wulgaryzmy w kodzie źródłowym edytora i je zaznacza. Obecnie jest to dopiero pierwsza wersja, ale mimo to już może być przydatna.

desk

Lista wulgaryzmów obecnie ograniczona jest do języka angielskiego, ale w przyszłości będzie rozszerzona o inne języki, w tym polski. Baza słów została zaczerpnięta z projektu na GitHbie LDNOOBW, czyli List of Dirty, Naughty, Obscene, and Otherwise Bad Words . Tak, takie rzeczy też można znaleźć na GitHubie :)

Projekt jest już gotowy do przetestowania w Visual Studio. Można go pobrać z marketu: Bad Word Detector lub z poziomu IDE.

Źródła projektu dostępne są na GitHubie.

Teraz trochę o tym jak taka wtyczka została zrobiona.

Jak działa Bad Word Detector?

Tworzymy nowy projekt w VS typu VSIXProject (gałąź Extensibility). Następnie do pustego projektu dodajemy element Editor Classifier

desk

Ten szablon pozwoli na stworzenie wtyczki, która będzie kolorowała składnię w Visual Studio.

Dostaniemy tutaj m.in.

EditorClassifierFormat , który odpowiada za formatowanie kolorowania składni

EditorClassifier przesyłający kawałki edytora tekstu, które się zmieniły, w celu analizy czy należy zastosować formatowanie lub nie

W tym przypadku nasz plik BadWordEditorClassifierFormat posiada następujący opis formatowania


this.DisplayName = "BadWordEditorClassifier"; // Human readable version of the name
this.BackgroundColor = Colors.DarkRed;
this.ForegroundColor = Colors.WhiteSmoke;
this.TextDecorations = System.Windows.TextDecorations.Underline;
this.IsBold = true;

Jest tu informacja o kolorach zaznaczenia i pogrubieniu, a także nazwa.

W tym miejscu zaznaczamy także za pomocą atrybutów, aby nasz klasyfikator był odpalany na końcu poprzez ustawienie Order :


[Export(typeof(EditorFormatDefinition))]
[ClassificationType(ClassificationTypeNames = "BadWordEditorClassifier")]
[Name("BadWordEditorClassifier")]
[UserVisible(true)] // This should be visible to the end user
[Order(After = Priority.High)] // Set the priority 
internal sealed class BadWordEditorClassifierFormat : ClassificationFormatDefinition
{
   //...
}

Sprawdzenie czy wtyczka powinna zaznaczyć tekst odbywa się w klasie BadWordEditorClassifier w metodzie GetClassificationSpans . Wygląda ona następująco:



public IList<ClassificationSpan> GetClassificationSpans(SnapshotSpan span)
{
    var result = new List<ClassificationSpan>();
    var badDetails = BadService.Instance.BadWordsDetails(span.GetText());
    if (badDetails != null)
    {
        badDetails.ForEach(x =>
        {
            result.Add(new ClassificationSpan(new SnapshotSpan(span.Snapshot, 
                (span.Span.Start + x.StartIndex), x.Length), this.classificationType));
        });
    }
    return result;
}

GetClassificationSpans jako parametr ma analizowany tekst z edytora. Metoda sprawdza zewnętrznym serwisem BadService , czy w zaznaczonym tekście są wulgaryzmy. Jeśli tak, wówczas w pętli tworzy elementy z edytora jakie powinny zostać zaznaczone za pomocą naszego formatera. Metoda BadWordsDetails zwraca początkowy indeks z wulgaryzmem i jego długość. Pozwala to na dokładne określenie miejsca do podkreślenia.

Sam BadService jest Singletonem i przy pierwszym odwołaniu zaczytuje wulgaryzmy z pliku do pamięci. Detekcja sprowadza się do użycia Regexów:


public List<BadWordInfo> BadWordsDetails(string input)
{
    if (input != null && OnlyAlphaRegex.IsMatch(input))
    {
        List<BadWordInfo> indexList = new List<BadWordInfo>();
        BadList.ForEach(bad =>
        {
            var badMatch = Regex.Match(input, @"\b" + bad + @"\b", RegexOptions.IgnoreCase);
            while (badMatch.Success)
            {
                indexList.Add(new BadWordInfo(badMatch.Index, bad.Length));
                badMatch = badMatch.NextMatch();
            }

        });
        return indexList.Any() ? indexList : null;
    }
    return null;
}

Na początku sprawdzamy czy tekst do analizy nie jest pusty i czy ma jakieś znaki z alfabetu. Te ostatnie jest robione przy pomocy skompilowanego Regexa:


private Regex OnlyAlphaRegex = new Regex(@"[a-zA-Z]", RegexOptions.Compiled);

Następnie iterujemy po kolejnych słowach i sprawdzamy czy całe przekleństwo (nie wyraz w środku ) występuje w tekście. Jeśli tak, to zapisujemy miejsce wystąpienia i długość wulgaryzmu. W jednym fragmencie może być kilka wystąpień , stąd też brane pod uwagę są wszystkie detekcje.

I oto główny core wtyczki Bad Word Detector. W przyszłości planuję dodanie innych języków z możliwością aktywacji ich w ustawieniach. Zapraszam do testów i zgłaszania uwag. Mam nadzieję, że wtyczka będzie przydatna :)

desk

Pobierz: Bad Word Detector

Komentarze

Popularne posty z tego bloga

Oni migają tymi kolorami w sposób profesjonalny. Narodziny gamedevu z ducha demosceny w Polsce - Piotr Marecki i Tomasz TDC Cieślewicz, recenzja książki

Tytuł książki jest mocno rozbudowany i zapewne pierwsze spojrzenie na okładkę może odstraszyć potencjalnego klienta, jednakże, warto dać szansę tej pozycji. Zaskoczeń jest kilka, chociaż nie tylko tych pozytywnych. Zatem przejdźmy do krótkiej recenzji "Oni migają tymi kolorami w sposób profesjonalny". TDC - Demoscena, Atari, Mirage i piractwo w Polsce Książka jest zbiorem historii opowiadanych przez Tomasza TDC Cieślewicza. Swoje przygody z IT zaczął w 1988 roku, kiedy to otrzymał Atari 800 XL. Od 1989 roku związany był z Mirage i jako jeden z najmłodszych tworzył gry na rynek polski. Był również współpracownikiem "Bajtka" i członkiem redakcji "Atari Magazynu". Bardzo mocno związany z demosceną Atari, gdzie tworzy do dziś. Zaangażowany w szkolenia i warsztaty z programowania. Obecnie redaktor Atarionline.pl Przyznaję, że wcześniej nie słyszałem o Tomaszu Cieślewiczu, ale po przeczytaniu tej książki śmiało można powiedzieć, że dziś zapewne byłby fre...

Czytaj więcej

jQuery - miłość od pierwszego wejrzenia!

[code].......##..#######..##.....##.########.########..##....## .......##.##.....##.##.....##.##.......##.....##..##..##. .......##.##.....##.##.....##.##.......##.....##...####.. .......##.##.....##.##.....##.######...########.....##... .##....##.##..##.##.##.....##.##.......##...##......##... .##....##.##....##..##.....##.##.......##....##.....##... ..######...#####.##..#######..########.##.....##....##... [/code] jQuery - write less, do more Chciałbym podzielić sie z Wami, pięknem jQuery [1] (dalej jq). Kilka miesięcy temu skandyn dodał wpis , w którym przedstawił pobieżnie, jak zrobić prosta galerię z jq, bez zagłębiania i wstępnej prezentacji geniuszu jq:). Tutaj chciałbym ogólnie zaprezentować jq, dla niewtajemniczonych (są jeszcze tacy?:)). Czym jest jq? Można powiedzieć, iż jest to biblioteka do Java Script (dalej js), która, pomaga w obsłudze js i drzew DOM. Jednakże robi to w tak finezyjny sposób, iż po pewnym czasie korzystania z niej, dochodzimy do wniosku, i...

Czytaj więcej

Comet - MVU w MAUI bez XAML, czyli próba dogonienia Fluttera

MAUI jest już z nami od kilku miesięcy i jest bardzo mocno promowane przez Microsoft. Jest to niezmiernie ciekawa opcja do pisania aplikacji pod różne systemy i środowiska. O ile jednak w przypadku pisania aplikacji desktopowych czy webowych, taki MAUI jest ciekawostką dla deweloperów .NET, to w przypadku świata mobilnego jest zupełnie inaczej. Rok temu w listopadzie 2021 pisałem o tym jak tworzenie mobilnych aplikacji w .NET jest nie lada wyzwaniem. Oficjalne zakończenie wsparcia dla Xamarin.Forms i przedstawienie alternatywy w postaci MAUI, które w 2021 roku nie doczekało się premiery, powodowało ból głowy mobilnych deweloperów .NET. Mimo, iż w maju 2022 roku MAUI miało oficjalną premierę, to nadal sytuacja nie jest wcale lepsza. Samo MAUI nie jest jeszcze narzędziem, które można uznać w 100% gotowe na to, aby pójść z nim na produkcję. Wiele jeszcze mniejszych niedoróbek i problemów spędza sen z powiek deweloperów mobilnych w .NET. Mimo, że dostaliśmy wersję finalną, nie jest t...

Czytaj więcej

Programowanie mobilne w .NET - barwna historia i niewiadoma przyszłość

Aplikacje mobilne pisane w .NET nigdy nie miały łatwo, podobnie jak ich deweloperzy. Jednakże w ostatnich latach Microsoft mocno stara się, aby ekosystem do tworzenia aplikacji w technologii .NET był jak najbardziej przyjazny twórcom (apka mobile jest must have niemalże każdej firmy). Pomimo tego obecnie jesteśmy w technologicznym rozkroku w .NET mobile (uśmiercenie Xamarin.Forms jeszcze przed narodzinami MAUI). Skłoniło mnie to do pewnych refleksji związanych z programowaniem w technologiach Microsoft mobile. Z racji tego, że "klepię" ;) w .NET już prawie 14 lat to przewinąłem się przez wiele projektów mobilnych (komercyjnych i nie tylko) tworzonych właśnie przy pomocy narzędzi Microsoft. W tym wpisie postaram się przedstawić w miarę zwięzłej formie historię programowania mobilnego w .NET, która jest ze mną niemalże od zawsze. Windows Mobile i .NET Compact Framework Moja przygoda z technologiami mobilnym od Microsoftu zaczęła się właśnie od .NET Compact Framework. Jeg...

Czytaj więcej

Drukarka Epson EcoTank – napełniamy tusze, analiza w szczegółach (Epson EcoTank L3110)

Drukarka dostarczona od Epsona do testów jest już u mnie jakiś czas. Jest ona reklamowana jako jedno z najtańszych urządzeń na rynku w kwestiach eksploatacyjnych. We wcześniejszym wpisie ( Tanie, cebulowe drukowanie z Epson EcoTank L3110 ) przedstawiłem kilka suchych faktów odnośnie samej drukarki. Dziś przyszedł czas na trochę praktyki. W pierwszej kolejności zobaczymy jak napełnia się tuszami ów sprzęt i czy nie sprawa to problemów natury technicznej lub "logistycznej". Epson EcoTank - sposób na tanie i dobre drukowanie EcoTank to całkiem ciekawy sposób na drukowanie bez kartridży. Zamiast tego w drukarce znajdziemy 4 przezroczyste pojemniki na tusz (Czarny, Magneta, białY, Cyan). Pojemniki napełniamy tuszem z butelki. W takim przypadku oryginalny tusz kosztuje ok. 27 zł (65 ml), co jest niezmiernie atrakcyjne cenowo. Napełnienie jest szybkie, a co ważne nie upaćkamy się w tuszu, gdyż każda z buteleczek ma blokadę (kuleczka w szyjce) przed wylaniem. Dodatkowo nie przele...

Czytaj więcej

Microsoft nadal nie umie w Open Source

Open Source jest wszędzie wokół nas i zapewne bez tej inicjatywy świat nie byłby taki sam. Nie ma sensu rozpisywać się o zaletach otwartego oprogramowania, bo te są jasne i klarowne. W tym wpisie chciałbym przedstawić jednak punkt widzenia programisty .NET, który przez Microsoft został nieraz już wprowadzony w maliny. Powodem tego jest ciągle chyba brak zrozumienia i większej współpracy Microsoftu w kluczowych dla tego giganta projektach Open Source. Microsoft Open Source'm stoi Microsoft z Open Source miał trochę pod górkę. Steve Ballmer kiedyś powiedział "Linux jest rakiem" w kwestii GNU GPL. Dziś zapewne gigant z Redmond chciałbym o tym zapomnieć, gdyż Microsoft od jakiegoś już czasu jest firmą Open Source. Pierwszą zmianą na plus było zatrudnienie w 2004 roku Billa Hilfa, lidera działu Open Source w IBM. Jak sam twierdzi, Microsoft zatrudnił go, gdyż firma nie wiedziała czym jest i jak działa idea otwartego oprogramowania. Zaś już od 2006 roku Microsoft był kontrybut...

Czytaj więcej

Visage - gra horror, na którą nie byliśmy gotowi i jak z tymi straszakami do tej pory bywało (recenzja PS4)

W ostatnich latach gry, które faktycznie przerażały klimatem, a nie tylko tanimi jump scare'ami, było jak na lekarstwo. Bardzo łatwo wzdrygnąć się, gdy nagle w ciszy jakiś wysoki dźwięk zaskoczy niespodziewającego się gracza. Czy takie gry, które "straszą" jedynie głośnym, nagłym "łomotem" można nazwać prawdziwymi interaktywnymi horrorami? Nie sądzę. Takie tanie sztuczki spowodowane są najczęściej brakiem klimatu i pomysłu na rozgrywkę. Co więcej, od dawna wiadomo, że najlepiej straszy to, co nieznane, niedopowiedziane. Jump scare w grach to nic innego, jak chwilowe zaskoczenie gracza, do którego ten szybko się przyzwyczaja. Po pewnym czasie zaczyna się go nawet ignorować, a po dłuższej chwili staje się irytujący i sprawia, że do rozgrywki wkrada się nuda i monotonia. Jak to z tymi horrorami bywa? W ostatnich latach najbardziej zawiodłem się na dylogii Layers of Fear. Klimat szybko siadał, a rozgrywka stawała się powtarzalna i dość przewidywalna. Ogólnie gry teg...

Czytaj więcej

Licznik Blogowy 5.0 - archiwizacja bloga

Licznik blogowy dla blogerów portalu dobreprogramy.pl to mały niezbędnik każdego autora kontentu. Przez ostatnie 7 lat (styczeń 2014, ostatnia aktualizacja maj 2021) licznik dostawał nowe ficzery i uzyskiwał kompatybilność z kolejnymi odsłonami portalu. Najnowsza wersja 5.0 wnosi kolejny duży ficzer - archiwizacja bloga. Stwórz pełne archiwum swojego bloga Pomysł na stworzenie archiwum nie jest nowy. Niemalże równo 4 lata temu zrobiłem apkę, która tworzył archiwum bloga na naszym dysku: tekst + zdjęcia (DobryBackupBloga — aplikacja do szybkiej archiwizacji wpisów blogowych). Lata leciały, a apka przestała działać z nową odsłoną dobrychprogramów. Temat został zapomniany, aż wojtekadams odgrzebał temat DobregoBackupuBloga. Sam pomysł nadal jest ciekawy, ale forma - pliki exe do pobrania z obcego źródła już nie. Z tego też powodu możliwość stworzenia archiwum bloga przeniosłem na wtyczkę Licznik Blogowy. Tak oto powstała wersja 5.0. Licznik Blogowy 5.0 - archiwizacja Wtyczka w wersji...

Czytaj więcej

Wojny konsolowe, Blake J. Harris — recenzja książki (SEGA, Nintendo i batalia, która zdefiniowała pokolenie)

Nie ma co tu owijać w bawełnę i nudzić wstępem na siłę. Książka jest świetna i jeśli interesujesz się grami retro lub ogólnie historią przemysłu rozrywkowego, to jest to pozycja wręcz obowiązkowa. Nawet więcej, warto znać omawianą książkę jako szersze spojrzenie na obecną branżę gier, a uwierzcie, że znajdziecie wiele analogii do obecnych poczynań tuz świata growego. Sega od środka Książka nie jest cieniutką pozycją, a całkiem opasłym tomiskiem w twardych oprawach. Ma ona prawie 600 stron i dość niewielką czcionkę, więc jest tu sporo do poczytania. Po środku mamy kilkadziesiąt kolorowych zdjęć z tamtych lat, które ogląda się zupełnie inaczej podczas lektury, wiedząc już kim są dane osoby na fotografiach. Książka opisuje Segę od momentu przejęcia przez Toma Kalinske posady CEO Sega of America w roku 1990, a także wcześniejsze perypetie gigantów branży rozrywkowej w latach 80-tych. Początek Wojen konsolowyc h zaczynamy od poznania Toma na wakacjach na Hawajach, gdzie s...

Czytaj więcej

Licznik Blogowy 4.0 - nowy niezbędnik blogera

Licznik Blogowy to dodatek do przeglądarki (Chrome/FireFox), który zbiera statystyki z bloga na portalu dobreprogramy.pl. Pierwsza wersja powstała grubo ponad 7 lat temu (styczeń 2014), a ostatnia aktualizacja pochodzi z marca 2020 roku. Więc jest to inicjatywa z bardzo długą brodą. Nowa odsłona portalu dobreprogramy.pl wywołała wiele kontrowersji, od zmian na stanowiskach po problemy z komentarzami. Działo (i dzieje się) dużo w tym temacie. W tym zmieniono także diametralnie szatę graficzną i sam silniki portalu. Z tego też powodu trzeba było znacznie przerobić wtyczkę o której dziś mowa. Odświeżenie silnika Nowa odsłona Licznika Blogowego to wiele zmian od strony technicznej. Już nie trzeba "ręcznie" parsować strony HTML w celu uzyskania danych, a wystarczy podpiąć się pod istniejące API. Z drugiej strony jednak strona ładuje się tylko raz i kolejne strony dociągane są dynamicznie. Niesie to za sobą zupełnie inne podejście do osadzenia dodatkowych elementów wtyczki (przyci...

Czytaj więcej

Grzegorz Jamiołkowski, djfoxer – IT blog

Szukaj na tym blogu