Przejdź do głównej zawartości

Bad Word Detector — własna wtyczka do detekcji wulgaryzmów w Visual Studio

Tworząc w IDE zapewne nieraz natknęliście się na kod źródłowy, który zawierał wulgaryzmy czy to w postaci komentarza, czy to w postaci nazw zmiennych. Również my sami lubimy wstawić gdzieś w kodzie "kupę" lub inny równie ciekawy zwrot.

Niestety czasem takie "kwiatki" wychodzą na produkcję i nie są może czymś karygodnym lub niebezpiecznym, ale wizerunkowo raczej nikt na tym nie zyskuje. Ostatnio pisał Niebezpiecznik chociażby o "fakach" na stronce OKE

desk

a kilka dni wcześniej podobnie "wpadł" Citibank.

Tworząc na konkurs wtyczkę Healthy With VS wpadłem na pomysł, aby stworzyć dodatek do Visual Studio, który mógłby zaradzić takim problemom. Bad Word Detector, bo tak nazwałem ten nano-projekt, wykrywa wulgaryzmy w kodzie źródłowym edytora i je zaznacza. Obecnie jest to dopiero pierwsza wersja, ale mimo to już może być przydatna.

desk

Lista wulgaryzmów obecnie ograniczona jest do języka angielskiego, ale w przyszłości będzie rozszerzona o inne języki, w tym polski. Baza słów została zaczerpnięta z projektu na GitHbie LDNOOBW, czyli List of Dirty, Naughty, Obscene, and Otherwise Bad Words . Tak, takie rzeczy też można znaleźć na GitHubie :)

Projekt jest już gotowy do przetestowania w Visual Studio. Można go pobrać z marketu: Bad Word Detector lub z poziomu IDE.

Źródła projektu dostępne są na GitHubie.

Teraz trochę o tym jak taka wtyczka została zrobiona.

Jak działa Bad Word Detector?

Tworzymy nowy projekt w VS typu VSIXProject (gałąź Extensibility). Następnie do pustego projektu dodajemy element Editor Classifier

desk

Ten szablon pozwoli na stworzenie wtyczki, która będzie kolorowała składnię w Visual Studio.

Dostaniemy tutaj m.in.

EditorClassifierFormat , który odpowiada za formatowanie kolorowania składni

EditorClassifier przesyłający kawałki edytora tekstu, które się zmieniły, w celu analizy czy należy zastosować formatowanie lub nie

W tym przypadku nasz plik BadWordEditorClassifierFormat posiada następujący opis formatowania


this.DisplayName = "BadWordEditorClassifier"; // Human readable version of the name
this.BackgroundColor = Colors.DarkRed;
this.ForegroundColor = Colors.WhiteSmoke;
this.TextDecorations = System.Windows.TextDecorations.Underline;
this.IsBold = true;

Jest tu informacja o kolorach zaznaczenia i pogrubieniu, a także nazwa.

W tym miejscu zaznaczamy także za pomocą atrybutów, aby nasz klasyfikator był odpalany na końcu poprzez ustawienie Order :


[Export(typeof(EditorFormatDefinition))]
[ClassificationType(ClassificationTypeNames = "BadWordEditorClassifier")]
[Name("BadWordEditorClassifier")]
[UserVisible(true)] // This should be visible to the end user
[Order(After = Priority.High)] // Set the priority 
internal sealed class BadWordEditorClassifierFormat : ClassificationFormatDefinition
{
   //...
}

Sprawdzenie czy wtyczka powinna zaznaczyć tekst odbywa się w klasie BadWordEditorClassifier w metodzie GetClassificationSpans . Wygląda ona następująco:



public IList<ClassificationSpan> GetClassificationSpans(SnapshotSpan span)
{
    var result = new List<ClassificationSpan>();
    var badDetails = BadService.Instance.BadWordsDetails(span.GetText());
    if (badDetails != null)
    {
        badDetails.ForEach(x =>
        {
            result.Add(new ClassificationSpan(new SnapshotSpan(span.Snapshot, 
                (span.Span.Start + x.StartIndex), x.Length), this.classificationType));
        });
    }
    return result;
}


GetClassificationSpans jako parametr ma analizowany tekst z edytora. Metoda sprawdza zewnętrznym serwisem BadService , czy w zaznaczonym tekście są wulgaryzmy. Jeśli tak, wówczas w pętli tworzy elementy z edytora jakie powinny zostać zaznaczone za pomocą naszego formatera. Metoda BadWordsDetails zwraca początkowy indeks z wulgaryzmem i jego długość. Pozwala to na dokładne określenie miejsca do podkreślenia.

Sam BadService jest Singletonem i przy pierwszym odwołaniu zaczytuje wulgaryzmy z pliku do pamięci. Detekcja sprowadza się do użycia Regexów:


public List<BadWordInfo> BadWordsDetails(string input)
{
    if (input != null && OnlyAlphaRegex.IsMatch(input))
    {
        List<BadWordInfo> indexList = new List<BadWordInfo>();
        BadList.ForEach(bad =>
        {
            var badMatch = Regex.Match(input, @"\b" + bad + @"\b", RegexOptions.IgnoreCase);
            while (badMatch.Success)
            {
                indexList.Add(new BadWordInfo(badMatch.Index, bad.Length));
                badMatch = badMatch.NextMatch();
            }

        });
        return indexList.Any() ? indexList : null;
    }
    return null;
}

Na początku sprawdzamy czy tekst do analizy nie jest pusty i czy ma jakieś znaki z alfabetu. Te ostatnie jest robione przy pomocy skompilowanego Regexa:


private Regex OnlyAlphaRegex = new Regex(@"[a-zA-Z]", RegexOptions.Compiled);

Następnie iterujemy po kolejnych słowach i sprawdzamy czy całe przekleństwo (nie wyraz w środku ) występuje w tekście. Jeśli tak, to zapisujemy miejsce wystąpienia i długość wulgaryzmu. W jednym fragmencie może być kilka wystąpień , stąd też brane pod uwagę są wszystkie detekcje.

I oto główny core wtyczki Bad Word Detector. W przyszłości planuję dodanie innych języków z możliwością aktywacji ich w ustawieniach. Zapraszam do testów i zgłaszania uwag. Mam nadzieję, że wtyczka będzie przydatna :)

desk

Pobierz: Bad Word Detector

Komentarze

Popularne posty z tego bloga

Oni migają tymi kolorami w sposób profesjonalny. Narodziny gamedevu z ducha demosceny w Polsce - Piotr Marecki i Tomasz TDC Cieślewicz, recenzja książki

Tytuł książki jest mocno rozbudowany i zapewne pierwsze spojrzenie na okładkę może odstraszyć potencjalnego klienta, jednakże, warto dać szansę tej pozycji. Zaskoczeń jest kilka, chociaż nie tylko tych pozytywnych. Zatem przejdźmy do krótkiej recenzji "Oni migają tymi kolorami w sposób profesjonalny". TDC - Demoscena, Atari, Mirage i piractwo w Polsce Książka jest zbiorem historii opowiadanych przez Tomasza TDC Cieślewicza. Swoje przygody z IT zaczął w 1988 roku, kiedy to otrzymał Atari 800 XL. Od 1989 roku związany był z Mirage i jako jeden z najmłodszych tworzył gry na rynek polski. Był również współpracownikiem "Bajtka" i członkiem redakcji "Atari Magazynu". Bardzo mocno związany z demosceną Atari, gdzie tworzy do dziś. Zaangażowany w szkolenia i warsztaty z programowania. Obecnie redaktor Atarionline.pl Przyznaję, że wcześniej nie słyszałem o Tomaszu Cieślewiczu, ale po przeczytaniu tej książki śmiało można powiedzieć, że dziś zapewne byłby fre...

Comet - MVU w MAUI bez XAML, czyli próba dogonienia Fluttera

MAUI jest już z nami od kilku miesięcy i jest bardzo mocno promowane przez Microsoft. Jest to niezmiernie ciekawa opcja do pisania aplikacji pod różne systemy i środowiska. O ile jednak w przypadku pisania aplikacji desktopowych czy webowych, taki MAUI jest ciekawostką dla deweloperów .NET, to w przypadku świata mobilnego jest zupełnie inaczej. Rok temu w listopadzie 2021 pisałem o tym jak tworzenie mobilnych aplikacji w .NET jest nie lada wyzwaniem. Oficjalne zakończenie wsparcia dla Xamarin.Forms i przedstawienie alternatywy w postaci MAUI, które w 2021 roku nie doczekało się premiery, powodowało ból głowy mobilnych deweloperów .NET. Mimo, iż w maju 2022 roku MAUI miało oficjalną premierę, to nadal sytuacja nie jest wcale lepsza.  Samo MAUI nie jest jeszcze narzędziem, które można uznać w 100% gotowe na to, aby pójść z nim na produkcję. Wiele jeszcze mniejszych niedoróbek i problemów spędza sen z powiek deweloperów mobilnych w .NET. Mimo, że dostaliśmy wersję finalną, nie jest t...

Drukarka Epson EcoTank – napełniamy tusze, analiza w szczegółach (Epson EcoTank L3110)

Drukarka dostarczona od Epsona do testów jest już u mnie jakiś czas. Jest ona reklamowana jako jedno z najtańszych urządzeń na rynku w kwestiach eksploatacyjnych. We wcześniejszym wpisie ( Tanie, cebulowe drukowanie z Epson EcoTank L3110 ) przedstawiłem kilka suchych faktów odnośnie samej drukarki. Dziś przyszedł czas na trochę praktyki. W pierwszej kolejności zobaczymy jak napełnia się tuszami ów sprzęt i czy nie sprawa to problemów natury technicznej lub "logistycznej". Epson EcoTank - sposób na tanie i dobre drukowanie EcoTank to całkiem ciekawy sposób na drukowanie bez kartridży. Zamiast tego w drukarce znajdziemy 4 przezroczyste pojemniki na tusz (Czarny, Magneta, białY, Cyan). Pojemniki napełniamy tuszem z butelki. W takim przypadku oryginalny tusz kosztuje ok. 27 zł (65 ml), co jest niezmiernie atrakcyjne cenowo. Napełnienie jest szybkie, a co ważne nie upaćkamy się w tuszu, gdyż każda z buteleczek ma blokadę (kuleczka w szyjce) przed wylaniem. Dodatkowo nie przele...

Wojny konsolowe, Blake J. Harris — recenzja książki (SEGA, Nintendo i batalia, która zdefiniowała pokolenie)

Nie ma co tu owijać w bawełnę i nudzić wstępem na siłę. Książka jest świetna i jeśli interesujesz się grami retro lub ogólnie historią przemysłu rozrywkowego, to jest to pozycja wręcz obowiązkowa. Nawet więcej, warto znać omawianą książkę jako szersze spojrzenie na obecną branżę gier, a uwierzcie, że znajdziecie wiele analogii do obecnych poczynań tuz świata growego.  Sega od środka Książka nie jest cieniutką pozycją, a całkiem opasłym tomiskiem  w twardych oprawach. Ma ona prawie 600 stron i dość niewielką czcionkę, więc jest tu sporo do poczytania. Po środku mamy kilkadziesiąt kolorowych zdjęć z tamtych lat, które ogląda się zupełnie inaczej podczas lektury, wiedząc już kim są dane osoby na fotografiach.  Książka opisuje Segę od momentu przejęcia przez  Toma Kalinske  posady CEO Sega of America w roku 1990, a także wcześniejsze perypetie gigantów branży rozrywkowej w latach 80-tych. Początek Wojen konsolowyc h zaczynamy od poznania Toma na wakacjach na Hawajach, gdzie s...

222 polskie gry, które warto znać - Marcin Kosman, recenzja książki

Marcin Kosman dał się poznać jako autor ciekawej pozycji o polskim game devie: " Nie tylko Wiedźmin. Historia polskich gier komputerowych ". Po pięciu latach wraca z nową książką, również związaną z polską branżą grową, ale w zupełnie innej formie. 222 polskie gry "222 polskie gry, które warto znać" to wyjątkowa książka. Co więcej, to nie jest książka jako taka, a bliżej jej do albumu. W języku angielskim funkcjonują one jako tzw. "Coffee table books", czyli książki/albumy bardziej do oglądania, niż do czytania. Tak jest właśnie z omawianą pozycją. W twardych okładach, w formacie B5 i na pięknym, kredowym papierze, znalazło się 222 polskich gier z lat 1983-2019. Każda strona to duża grafika, z kilkoma zdaniami o grze od autora książki, a czasem również dodatkowy, akapitem od osób tworzących dany kawałek softu. Wybór gier jest na tyle szeroki, że można śmiało powiedzieć, iż wybrano faktycznie najbardziej znaczące i rozpoznawalne tytuły. Jako, ...

Windows Phone — pierwsze uruchomienie, wstępna konfiguracja oraz garść porad

Dostałeś urządzenie z Windows Phone pod choinkę, ale nie miałeś nigdy styczności z systemem mobilnym od Microsoftu? Chcesz dowiedzieć się jak skonfigurować smartfon, co warto zainstalować oraz przeczytać garść porad? Jeśli odpowiedziałeś choć raz "TAK", to ten wpis jest właśnie dla Ciebie :) Zapraszam :) Każdy z nas po pierwszym uruchomieniu telefonu zastanawia się jak szybko i optymalnie skonfigurować urządzenie. Dodatkowo dochodzi aktualizacja najważniejszych składników systemu oraz instalacja niezbędnych aplikacji. W tym poradniku przedstawię jak poprawnie przejść przez te zagadnienia i jak szybko skonfigurować urządzenie z Windows Phone. Używany smartfon = reset ustawień Jeśli kupiliśmy używany telefon warto zrobić reset ustawień. Nie ma sensu cofania zmian wprowadzonych przez kogoś, co więcej nie zmienimy konta Microsoft na własne. Wyczyszczenie smartfonu dokonamy przez menu Ustawienia => zakładka aplikacje=> informacje i klikając na przycisk zresetuj t...

Duke Nukem Forever - wydany!

czerwca zakończyła się 14 letnia męczarnia/produkcja gry Duke Nukem Forever! :) Wreszcie nasze spragnione palce, z odciśniętymi klawiszami WSAD, mogą zanurzyć się w świat Dukea... Tak chyba by było, gdyby gra wyszła z 8-10 lat temu. Powiem szczerze, że jakoś nie zelektryzowała mnie wiadomość o wydaniu DNF, ale zacznijmy od początku... One man, one world, one million babes to save!! Pierwsze dwie części ('91 i '93 r.) były typowymi platformówkami. Były miłe i bardzo grywalne jak na tamte czasy. Bardzo dobre i porządne produkcje. Jednakże dopiero trzecia część Duke Nukem 3D, zapoczątkowała Dukomanie trwającą do dziś. Gra wydana w 1996 r. była strzałem w dziesiątkę! Świetna jak na tamte czasy grafika (mimo modeli 2D udających 3D) i naprawdę świeży humor, tworzyły grę godną zagrania i wciągnięcia się w nią na dłuuugie godziny. Jeśli dodać do tego szczyptę erotyzmu i niespotykaną wówczas interakcję z otoczeniem, wyłania się nam gra, która zawładnęła światem na długie ...

Programowanie pod WP7.5, czyli Windows Phone od kuchni

Po miesiącach szaleństw z Windows Phone, nieskończonej liczby instalacji i deinstalacji, kilku flashowaniach, grzebaniach się w MFG, aktualizacjach (udanych i tych zakończonych niepowodzeniem), przyszedł wreszcie czas, ażeby "spoważnieć" :P i napisać coś własnego na Windows Phone 7.5. Od razu napisze, że jest kilka problemów (i to wcale nie natury programistycznej). Dla kogo? Chcący zacząć programować dla Windows Phone 7(.5) powinniśmy umieć "na dzień dobry" podstawy C#/VB oraz podstawy Silverlighta lub XNA jeśli zechcemy tworzyć gry (także na XBox360!). Aplikacje pisane są w Visual Studio 2010 for Windows Phone. W Tym krótkim przewodniku postaram się opisać jak zacząć przygodę z pisaniem aplikacji na Windows Phone. A zatem, do dzieła! Visual Studio 2010 for Windows Phone Jak już wspomniałem przygodę rozpoczynamy od instalacji Visual Studio 2010 for Windows Phone http://www.microsoft.com/visualstudio/en-us/products/2010-editions/windows-phone-developer-too...

Nokia Pocztówka - wyślij za darmo pocztówkę ze swojej Lumii!

Zapewne słyszeliście o aplikacjach, które pozwalają na wysłanie ze smartfona własnej wizytówki. Całość sprowadza się często do wybrania zdjęcia i zapłacenia z wydruk oraz przesyłkę. Polski oddział Nokii postanowił pójść o krok dalej i ponownie użytkownicy Lumi z Windows Phone mogą mieć powody do zadowolenia i czuć się wyróżnieni. Za darmo? Tak! Zatem, jeśli posiadacie Nokię Lumię z Windows Phone (zarówno w wersji 7. jak i 8.) szybciutko pobierajcie ze Sklepu Windows Phone aplikację Nokia Pocztówka . Skąd ten pospiech? Nokia (odział w Polsce) zorganizował wzorową akcję promującą Windows Phone, ale przede wszystkim ich Lumie. Otóż każdy posiadacz Nokii, może za darmo pobrać aplikację Nokia Pocztówka . Dzięki niej za darmo wyślemy pocztówkę ze zdjęciem z Lumi! Bez żadnych ukrytych kosztów, wszystko za free :) Całość sprowadza się do wybrania zdjęcia z albumu lub bezpośrednio z aparatu. Następnie możemy dodać jeden z pięćdziesięciu filtrów i wykadrować grafikę. Teraz prz...

Licznik Blogowy - wtyczka do Chrome/Opery/Firefoxa dla każdego Blogera portalu [aktualizacja 08.04.14 (nowe funkcjonalności)] 0.6

Wielu z nas zapewne spogląda często na swoją listę Popularne wpisy , która pokazuje najczęściej komentowane publikacje na naszym prywatnym blogu. Cóż, można śmiało powiedzieć, że równie ważnym czynnikiem popularności wpisu jest również ilość wyświetleń. Niestety, aby zobaczyć licznik wyświetleń musimy wejść ręcznie do każdego wpisu z okna edycji i tam wyszukać tej informacji. Nie jest to ani szybkie, ani optymalne. Nie jest łatwo znaleźć wpis, który jest najbardziej popularny, gdy mamy ich wiele. Przeszukiwanie wszystkich publikacji i ręczne wybieranie tych najbardziej poczytnych jest baaardzo niewygodne. Oczywiście, postanowiłem coś z tym zrobić i tak powstał... Licznik Blogowy dobreprogramy.pl Licznik Blogowy dobreprogramy.pl to wtyczka do Chroma, nowej Opery i Firefoxa, niezbędna dla każdego blogera na portalu. Dzięki niej w prosty sposób wyświetlimy: listę najczęściej wyświetlanych własnych wpisów z ilością wyświetleń na dany czas datę modyfikacji wpisu spra...