Przejdź do głównej zawartości

Bad Word Detector — własna wtyczka do detekcji wulgaryzmów w Visual Studio

Tworząc w IDE zapewne nieraz natknęliście się na kod źródłowy, który zawierał wulgaryzmy czy to w postaci komentarza, czy to w postaci nazw zmiennych. Również my sami lubimy wstawić gdzieś w kodzie "kupę" lub inny równie ciekawy zwrot.

Niestety czasem takie "kwiatki" wychodzą na produkcję i nie są może czymś karygodnym lub niebezpiecznym, ale wizerunkowo raczej nikt na tym nie zyskuje. Ostatnio pisał Niebezpiecznik chociażby o "fakach" na stronce OKE

desk

a kilka dni wcześniej podobnie "wpadł" Citibank.

Tworząc na konkurs wtyczkę Healthy With VS wpadłem na pomysł, aby stworzyć dodatek do Visual Studio, który mógłby zaradzić takim problemom. Bad Word Detector, bo tak nazwałem ten nano-projekt, wykrywa wulgaryzmy w kodzie źródłowym edytora i je zaznacza. Obecnie jest to dopiero pierwsza wersja, ale mimo to już może być przydatna.

desk

Lista wulgaryzmów obecnie ograniczona jest do języka angielskiego, ale w przyszłości będzie rozszerzona o inne języki, w tym polski. Baza słów została zaczerpnięta z projektu na GitHbie LDNOOBW, czyli List of Dirty, Naughty, Obscene, and Otherwise Bad Words . Tak, takie rzeczy też można znaleźć na GitHubie :)

Projekt jest już gotowy do przetestowania w Visual Studio. Można go pobrać z marketu: Bad Word Detector lub z poziomu IDE.

Źródła projektu dostępne są na GitHubie.

Teraz trochę o tym jak taka wtyczka została zrobiona.

Jak działa Bad Word Detector?

Tworzymy nowy projekt w VS typu VSIXProject (gałąź Extensibility). Następnie do pustego projektu dodajemy element Editor Classifier

desk

Ten szablon pozwoli na stworzenie wtyczki, która będzie kolorowała składnię w Visual Studio.

Dostaniemy tutaj m.in.

EditorClassifierFormat , który odpowiada za formatowanie kolorowania składni

EditorClassifier przesyłający kawałki edytora tekstu, które się zmieniły, w celu analizy czy należy zastosować formatowanie lub nie

W tym przypadku nasz plik BadWordEditorClassifierFormat posiada następujący opis formatowania


this.DisplayName = "BadWordEditorClassifier"; // Human readable version of the name
this.BackgroundColor = Colors.DarkRed;
this.ForegroundColor = Colors.WhiteSmoke;
this.TextDecorations = System.Windows.TextDecorations.Underline;
this.IsBold = true;

Jest tu informacja o kolorach zaznaczenia i pogrubieniu, a także nazwa.

W tym miejscu zaznaczamy także za pomocą atrybutów, aby nasz klasyfikator był odpalany na końcu poprzez ustawienie Order :


[Export(typeof(EditorFormatDefinition))]
[ClassificationType(ClassificationTypeNames = "BadWordEditorClassifier")]
[Name("BadWordEditorClassifier")]
[UserVisible(true)] // This should be visible to the end user
[Order(After = Priority.High)] // Set the priority 
internal sealed class BadWordEditorClassifierFormat : ClassificationFormatDefinition
{
   //...
}

Sprawdzenie czy wtyczka powinna zaznaczyć tekst odbywa się w klasie BadWordEditorClassifier w metodzie GetClassificationSpans . Wygląda ona następująco:



public IList<ClassificationSpan> GetClassificationSpans(SnapshotSpan span)
{
    var result = new List<ClassificationSpan>();
    var badDetails = BadService.Instance.BadWordsDetails(span.GetText());
    if (badDetails != null)
    {
        badDetails.ForEach(x =>
        {
            result.Add(new ClassificationSpan(new SnapshotSpan(span.Snapshot, 
                (span.Span.Start + x.StartIndex), x.Length), this.classificationType));
        });
    }
    return result;
}


GetClassificationSpans jako parametr ma analizowany tekst z edytora. Metoda sprawdza zewnętrznym serwisem BadService , czy w zaznaczonym tekście są wulgaryzmy. Jeśli tak, wówczas w pętli tworzy elementy z edytora jakie powinny zostać zaznaczone za pomocą naszego formatera. Metoda BadWordsDetails zwraca początkowy indeks z wulgaryzmem i jego długość. Pozwala to na dokładne określenie miejsca do podkreślenia.

Sam BadService jest Singletonem i przy pierwszym odwołaniu zaczytuje wulgaryzmy z pliku do pamięci. Detekcja sprowadza się do użycia Regexów:


public List<BadWordInfo> BadWordsDetails(string input)
{
    if (input != null && OnlyAlphaRegex.IsMatch(input))
    {
        List<BadWordInfo> indexList = new List<BadWordInfo>();
        BadList.ForEach(bad =>
        {
            var badMatch = Regex.Match(input, @"\b" + bad + @"\b", RegexOptions.IgnoreCase);
            while (badMatch.Success)
            {
                indexList.Add(new BadWordInfo(badMatch.Index, bad.Length));
                badMatch = badMatch.NextMatch();
            }

        });
        return indexList.Any() ? indexList : null;
    }
    return null;
}

Na początku sprawdzamy czy tekst do analizy nie jest pusty i czy ma jakieś znaki z alfabetu. Te ostatnie jest robione przy pomocy skompilowanego Regexa:


private Regex OnlyAlphaRegex = new Regex(@"[a-zA-Z]", RegexOptions.Compiled);

Następnie iterujemy po kolejnych słowach i sprawdzamy czy całe przekleństwo (nie wyraz w środku ) występuje w tekście. Jeśli tak, to zapisujemy miejsce wystąpienia i długość wulgaryzmu. W jednym fragmencie może być kilka wystąpień , stąd też brane pod uwagę są wszystkie detekcje.

I oto główny core wtyczki Bad Word Detector. W przyszłości planuję dodanie innych języków z możliwością aktywacji ich w ustawieniach. Zapraszam do testów i zgłaszania uwag. Mam nadzieję, że wtyczka będzie przydatna :)

desk

Pobierz: Bad Word Detector

Komentarze

Popularne posty z tego bloga

222 polskie gry, które warto znać - Marcin Kosman, recenzja książki

Marcin Kosman dał się poznać jako autor ciekawej pozycji o polskim game devie: "Nie tylko Wiedźmin. Historia polskich gier komputerowych". Po pięciu latach wraca z nową książką, również związaną z polską branżą grową, ale w zupełnie innej formie.222 polskie gry"222 polskie gry, które warto znać" to wyjątkowa książka. Co więcej, to nie jest książka jako taka, a bliżej jej do albumu. W języku angielskim funkcjonują one jako tzw. "Coffee table books", czyli książki/albumy bardziej do oglądania, niż do czytania.Tak jest właśnie z omawianą pozycją. W twardych okładach, w formacie B5 i na pięknym, kredowym papierze, znalazło się 222 polskich gier z lat 1983-2019. Każda strona to duża grafika, z kilkoma zdaniami o grze od autora książki, a czasem również dodatkowy, akapitem od osób tworzących dany kawałek softu.Wybór gier jest na tyle szeroki, że można śmiało powiedzieć, iż wybrano faktycznie najbardziej znaczące i rozpoznawalne tytuły. Jako, że przygodę zacząłe…

.NET Linux vs Windows - test wydajności .NET Core 3.1, .NET 5.0, a także Mono

Jakiś czas temu przedstawiłem wyniki porównania kilku środowisk uruchomieniowych platofrmy .NET - artykuł: Umarł .NET Framework, niech żyje .NET Core (oraz .NET 5) i jego wydajność (link do wpisu). Wówczas testy odpalałem na Windows 10, a sprawdzany był .NET Framework 4.8, .NET Core 3.1, a także nowy .NET 5.0 (wersja preview).Trzeba jednak zdać sobie sprawę, że .NET od dłuższego już czasu (Mono, he he) jest środowiskiem wieloplatformowym. Warto zatem sprawdzić, jak różne środowiska uruchomieniowe .NET radzą sobie na Windows i Linuxie. Mimo, iż Mono jest z nami od wielu lat, to nowy .NET Core sprawił, że tworzenie aplikacji .NET i ich hostowanie na Linuxie stało się bardzo kuszące (cena). Zatem które z nich jest szybsze i na jakiej platformie? Pod uwagę wziąłem .NET Core 3.1, .NET 5 (zwany też jako .NET Core 5) oraz poczciwe Mono.DotNetFrameworkVsCoreDo testów wykorzystałem własny projekt na GitHube:https://github.com/djfoxer/DotNetFrameworkVsCoreJest to niewielka aplikacja testująca…

Programistok - Białystok dla programistów i nie tylko

W Białymstoku powstała bardzo ciekawa inicjatywa promująca nowe technologie i trendy w programowaniu - Programistok. (Programistok na Facebooku: http://www.facebook.com/pages/Programistok/237808102923666 )Cykliczne spotkania będą omawiać m.in. programowanie na urządzenia mobilne, testowanie aplikacji, projektowanie interfejsów użytkownika czy pisanie lepszego, czystszego kodu. Każdy zainteresowany może zgłosić swoją propozycjię prezentację (20 - 30 minut).Impreza organizowana przy udziale firmy AmberBit (http://amberbit.com/ )Cele jakie przyświecają Programistokowi:integracja podlaskiego (i nie tylko) środowiska programistów poprzez wymianę pomysłów, doświadczeń wśród wielu różnych technologii związanych z internetem - nie ma narzędzi idealnych, każdy projekt warto rozpatrzyć indywidualniena spotkaniu są różnorodni ludzie, więc dobra okazja na poszukanie nowej pracy lub znalezienie pracownikaspotkanie raz w miesiącu w luźnej atmosferze (Pub Mao, Młynowa 44, http://www.mao.com.pl/ )…

Oni migają tymi kolorami w sposób profesjonalny. Narodziny gamedevu z ducha demosceny w Polsce - Piotr Marecki i Tomasz TDC Cieślewicz, recenzja książki

Tytuł książki jest mocno rozbudowany i zapewne pierwsze spojrzenie na okładkę może odstraszyć potencjalnego klienta, jednakże, warto dać szansę tej pozycji. Zaskoczeń jest kilka, chociaż nie tylko tych pozytywnych. Zatem przejdźmy do krótkiej recenzji "Oni migają tymi kolorami w sposób profesjonalny".TDC - Demoscena, Atari, Mirage i piractwo w PolsceKsiążka jest zbiorem historii opowiadanych przez Tomasza TDC Cieślewicza. Swoje przygody z IT zaczął w 1988 roku, kiedy to otrzymał Atari 800 XL. Od 1989 roku związany był z Mirage i jako jeden z najmłodszych tworzył gry na rynek polski. Był również współpracownikiem "Bajtka" i członkiem redakcji "Atari Magazynu". Bardzo mocno związany z demosceną Atari, gdzie tworzy do dziś. Zaangażowany w szkolenia i warsztaty z programowania. Obecnie redaktor Atarionline.plPrzyznaję, że wcześniej nie słyszałem o Tomaszu Cieślewiczu, ale po przeczytaniu tej książki śmiało można powiedzieć, że dziś zapewne byłby freelancerem …

Licznik Blogowy - wersja 0.6, czyli własne statystyki i wykresy tuż pod ręką

Zapewne wielu z Was pamiętam, a może i używa:) , mojej wtyczki Licznik Blogowy do najpopularniejszych przeglądarek, skierowanej do blogerów na portalu dobreprogramy.Jeśli ktoś nie kojarzycie, to w skrócie: Licznik Blogowy to wtyczka do Chroma/Opery/Firefoxa. Za jej pomocą przejrzycie szybko pełne statystyki swoich wpisów na blogu. Lista wpisów może być sortowana wg: ilości wyświetleń, ilości komentarzy, daty publikacji i adnotacji moderacji. Łatwo znajdziecie publikacje, oznaczone przez moderatorów, a to wszystko w estetycznej i miłej formie, dostosowanej do wybranej skórki na blogu.Licznik Blogowy 0.6 - czas na własne wykresy! :)Ostatnia odsłona wtyczki przyniosła ciekawe refleksje po rozmowie z szanownym Panem Mordziem. Zaproponował on, aby wtyczka mogła generować wykresy na podstawie zebranych danych. Pomysł wydał mi się niezmiernie interesujący, stąd też obecna aktualizacja (0.6) przynosi możliwość tworzenia wykresów, opierając się na zabranych danych.Używanie nowej funkcji jes…

Nie tylko Wiedźmin. Historia polskich gier komputerowych — książka, której nie wypada nie kupić [recenzja]

Wspomnień czar. Czyli dawno, dawno temu...Moja przygoda z grami zaczęła się na poważnie od Amigii 500. W zestawie wraz z komputerem dostałem Lemingi i Powermonger, w pudełkach z taniej serii od IPSu, plus kartonowe wydanie Tokiego z Wielkiej Brytanii. Oczywiście w komplecie były również potężny zestaw dyskietek z ogromną ilością oprogramowania. Każdy nośnik był ręcznie podpisany i wskazywał jawnie na nielegalne źródło pochodzenia, aczkolwiek przed rokiem 1994, czyli przed wejściem ustawy "antypirackiej" , nikt nawet się tym nie przejmował.Gry, do pewnego momentu, zawsze kojarzyły się z językiem angielskim, który dla młodego człowieka na początku lat 90tych był często dużą barierą nie do pokonania. Często zatem siadałem ze słownikiem w dłoni i mozolnie tłumaczyłem newralgiczne elementy gry, bez których dalsze przejście gier było niemożliwe. Oczywiście zdarzały się wyjątki. Słynny Flashback otrzymałem w wersji francuskiej, a mimo to przeszedłem kilka poziomów. Wiele było ró…

Visual Studio Achievements

Każdy kto gra w gry, spotkał się z terminem achievement, czyli osiągnięcie. Za każdą, rzecz jaką zrobimy w grze, czy to znalezienie sekretu, czy zwykłe przejście mapy, odblokowujemy określone osiągnięcie. Jest to obecnie na konsolach, czy na Steamie. Możemy pochwalić się osiągnięciami wśród znajomych w systemie w jakim gramy, czy na Facebooku. Prosty sposób na wydłużenie gry i zwiększenie więzi pomiędzy graczem, a grą.Visual Studio Achievements. Co ma do tego Visual Studio? Ktoś wpadł na genialny pomysł. Połączył założenia achievementów ze świata gier z kodowaniem w Visual Studio! :) Wszystko zaczęło się na www.reddit.com, gdzie ktoś z nudów/dla żartów dodał wątek "A co gdyby, Visual Studio miało osiągnięcia?". Okazało się, że pomysł chwycił na tyle, iż powstał... plugin (darmowy) do Visual Studio! Każdy z Was może go ściągnąć i zainstalować w Visualu. Od tej chwili będzie zbierał osiągnięcia, niczym w grach wideo :)Tak jak w grach, za konkretne czynności odblokowujemy osi…

Tania, przeceniona prasa - lukratywny biznes na pograniczu prawa? Czyli CD-Action za 4zł

Zapewne większość z was zna pojęcie "taniej prasy" lub "przecenionej prasy". Są to najczęściej miejsca, gdzie można kupić gazety, magazyny i inne dobra kryjące się pod definicją prasy. Ich cechą jest to, iż nie są to aktualne wydanie, ale w większości przypadków "przeterminowane" egzemplarze, które zostały zastąpione aktualnymi numerami. Można zatem znaleźć tam magazyn sprzed roku lub dwóch, ale także numer CD-Action za 4zł, z jeszcze działającym kodem na gry, który dosłownie kilka dni wcześniej można było kupić w saloniku z prasą za 10,99zł.Jak to powinno być?Przeglądając strony w sieci natknąłem się na kilka artykułów, które opisują dany problem. Zgodnie z umowami, dystrybutorzy prasy nieaktualne numery powinni zwracać do wydawców. Drugą opcją jest zaś oddawanie takiej prasy na makulaturę. Zanim jednak trafi ona na "wysypisko" powinna zostać naznaczona farbą lub przecięta w taki sposób, aby nie nadawała się do odsprzedaży.A jak jest?Trudno jed…

Licznik Blogowy 2017 — niezbędnik blogera (Chrome/Opera/Firefox)

Nadeszła ta chwila. Po wielu latach oficjalnie światło dziennie ujrzała finalna wersja Licznika Blogowego. Dodatku do przeglądarki www, który pozwala na zbieranie danych o każdym blogu na portalu (nawet bez logowania!) i przedstawieniu statystyk w formie tekstowej i graficznej.HistoriaHistoria Licznika Blogowego sięga roku 2014. Wówczas to na początku roku powstaje dodatek do Chrome, który zbiera dane odnośnie wyświetleń wszystkich wpisów blogowych zalogowanej osoby. W przeciągu najbliższych miesięcy wtyczka otrzymuje możliwość instalacji na przeglądarkach Firefox i Opera, a także tworzenie wykresów na podstawie zebranych danych.Niestety w przeciągu lat portal przeszedł na https, a możliwość instalacji wtyczek spoza marketu stała się utrudniona lub nawet niemożliwa na wspieranych przeglądarkach. W ostatnim czasie otrzymałem sporo zapytań odnośnie reaktywacji wtyczki i przyszedł ten czas, aby zaprezentować finalną wersję.Licznik BlogowyLicznik Blogowy przeznaczony jest do analizy blo…