Przejdź do głównej zawartości

Bad Word Detector — własna wtyczka do detekcji wulgaryzmów w Visual Studio

Tworząc w IDE zapewne nieraz natknęliście się na kod źródłowy, który zawierał wulgaryzmy czy to w postaci komentarza, czy to w postaci nazw zmiennych. Również my sami lubimy wstawić gdzieś w kodzie "kupę" lub inny równie ciekawy zwrot.

Niestety czasem takie "kwiatki" wychodzą na produkcję i nie są może czymś karygodnym lub niebezpiecznym, ale wizerunkowo raczej nikt na tym nie zyskuje. Ostatnio pisał Niebezpiecznik chociażby o "fakach" na stronce OKE

desk

a kilka dni wcześniej podobnie "wpadł" Citibank.

Tworząc na konkurs wtyczkę Healthy With VS wpadłem na pomysł, aby stworzyć dodatek do Visual Studio, który mógłby zaradzić takim problemom. Bad Word Detector, bo tak nazwałem ten nano-projekt, wykrywa wulgaryzmy w kodzie źródłowym edytora i je zaznacza. Obecnie jest to dopiero pierwsza wersja, ale mimo to już może być przydatna.

desk

Lista wulgaryzmów obecnie ograniczona jest do języka angielskiego, ale w przyszłości będzie rozszerzona o inne języki, w tym polski. Baza słów została zaczerpnięta z projektu na GitHbie LDNOOBW, czyli List of Dirty, Naughty, Obscene, and Otherwise Bad Words . Tak, takie rzeczy też można znaleźć na GitHubie :)

Projekt jest już gotowy do przetestowania w Visual Studio. Można go pobrać z marketu: Bad Word Detector lub z poziomu IDE.

Źródła projektu dostępne są na GitHubie.

Teraz trochę o tym jak taka wtyczka została zrobiona.

Jak działa Bad Word Detector?

Tworzymy nowy projekt w VS typu VSIXProject (gałąź Extensibility). Następnie do pustego projektu dodajemy element Editor Classifier

desk

Ten szablon pozwoli na stworzenie wtyczki, która będzie kolorowała składnię w Visual Studio.

Dostaniemy tutaj m.in.

EditorClassifierFormat , który odpowiada za formatowanie kolorowania składni

EditorClassifier przesyłający kawałki edytora tekstu, które się zmieniły, w celu analizy czy należy zastosować formatowanie lub nie

W tym przypadku nasz plik BadWordEditorClassifierFormat posiada następujący opis formatowania


this.DisplayName = "BadWordEditorClassifier"; // Human readable version of the name
this.BackgroundColor = Colors.DarkRed;
this.ForegroundColor = Colors.WhiteSmoke;
this.TextDecorations = System.Windows.TextDecorations.Underline;
this.IsBold = true;

Jest tu informacja o kolorach zaznaczenia i pogrubieniu, a także nazwa.

W tym miejscu zaznaczamy także za pomocą atrybutów, aby nasz klasyfikator był odpalany na końcu poprzez ustawienie Order :


[Export(typeof(EditorFormatDefinition))]
[ClassificationType(ClassificationTypeNames = "BadWordEditorClassifier")]
[Name("BadWordEditorClassifier")]
[UserVisible(true)] // This should be visible to the end user
[Order(After = Priority.High)] // Set the priority 
internal sealed class BadWordEditorClassifierFormat : ClassificationFormatDefinition
{
   //...
}

Sprawdzenie czy wtyczka powinna zaznaczyć tekst odbywa się w klasie BadWordEditorClassifier w metodzie GetClassificationSpans . Wygląda ona następująco:



public IList<ClassificationSpan> GetClassificationSpans(SnapshotSpan span)
{
    var result = new List<ClassificationSpan>();
    var badDetails = BadService.Instance.BadWordsDetails(span.GetText());
    if (badDetails != null)
    {
        badDetails.ForEach(x =>
        {
            result.Add(new ClassificationSpan(new SnapshotSpan(span.Snapshot, 
                (span.Span.Start + x.StartIndex), x.Length), this.classificationType));
        });
    }
    return result;
}


GetClassificationSpans jako parametr ma analizowany tekst z edytora. Metoda sprawdza zewnętrznym serwisem BadService , czy w zaznaczonym tekście są wulgaryzmy. Jeśli tak, wówczas w pętli tworzy elementy z edytora jakie powinny zostać zaznaczone za pomocą naszego formatera. Metoda BadWordsDetails zwraca początkowy indeks z wulgaryzmem i jego długość. Pozwala to na dokładne określenie miejsca do podkreślenia.

Sam BadService jest Singletonem i przy pierwszym odwołaniu zaczytuje wulgaryzmy z pliku do pamięci. Detekcja sprowadza się do użycia Regexów:


public List<BadWordInfo> BadWordsDetails(string input)
{
    if (input != null && OnlyAlphaRegex.IsMatch(input))
    {
        List<BadWordInfo> indexList = new List<BadWordInfo>();
        BadList.ForEach(bad =>
        {
            var badMatch = Regex.Match(input, @"\b" + bad + @"\b", RegexOptions.IgnoreCase);
            while (badMatch.Success)
            {
                indexList.Add(new BadWordInfo(badMatch.Index, bad.Length));
                badMatch = badMatch.NextMatch();
            }

        });
        return indexList.Any() ? indexList : null;
    }
    return null;
}

Na początku sprawdzamy czy tekst do analizy nie jest pusty i czy ma jakieś znaki z alfabetu. Te ostatnie jest robione przy pomocy skompilowanego Regexa:


private Regex OnlyAlphaRegex = new Regex(@"[a-zA-Z]", RegexOptions.Compiled);

Następnie iterujemy po kolejnych słowach i sprawdzamy czy całe przekleństwo (nie wyraz w środku ) występuje w tekście. Jeśli tak, to zapisujemy miejsce wystąpienia i długość wulgaryzmu. W jednym fragmencie może być kilka wystąpień , stąd też brane pod uwagę są wszystkie detekcje.

I oto główny core wtyczki Bad Word Detector. W przyszłości planuję dodanie innych języków z możliwością aktywacji ich w ustawieniach. Zapraszam do testów i zgłaszania uwag. Mam nadzieję, że wtyczka będzie przydatna :)

desk

Pobierz: Bad Word Detector

Komentarze

Popularne posty z tego bloga

Oni migają tymi kolorami w sposób profesjonalny. Narodziny gamedevu z ducha demosceny w Polsce - Piotr Marecki i Tomasz TDC Cieślewicz, recenzja książki

Tytuł książki jest mocno rozbudowany i zapewne pierwsze spojrzenie na okładkę może odstraszyć potencjalnego klienta, jednakże, warto dać szansę tej pozycji. Zaskoczeń jest kilka, chociaż nie tylko tych pozytywnych. Zatem przejdźmy do krótkiej recenzji "Oni migają tymi kolorami w sposób profesjonalny". TDC - Demoscena, Atari, Mirage i piractwo w Polsce Książka jest zbiorem historii opowiadanych przez Tomasza TDC Cieślewicza. Swoje przygody z IT zaczął w 1988 roku, kiedy to otrzymał Atari 800 XL. Od 1989 roku związany był z Mirage i jako jeden z najmłodszych tworzył gry na rynek polski. Był również współpracownikiem "Bajtka" i członkiem redakcji "Atari Magazynu". Bardzo mocno związany z demosceną Atari, gdzie tworzy do dziś. Zaangażowany w szkolenia i warsztaty z programowania. Obecnie redaktor Atarionline.pl Przyznaję, że wcześniej nie słyszałem o Tomaszu Cieślewiczu, ale po przeczytaniu tej książki śmiało można powiedzieć, że dziś zapewne byłby fre

222 polskie gry, które warto znać - Marcin Kosman, recenzja książki

Marcin Kosman dał się poznać jako autor ciekawej pozycji o polskim game devie: " Nie tylko Wiedźmin. Historia polskich gier komputerowych ". Po pięciu latach wraca z nową książką, również związaną z polską branżą grową, ale w zupełnie innej formie. 222 polskie gry "222 polskie gry, które warto znać" to wyjątkowa książka. Co więcej, to nie jest książka jako taka, a bliżej jej do albumu. W języku angielskim funkcjonują one jako tzw. "Coffee table books", czyli książki/albumy bardziej do oglądania, niż do czytania. Tak jest właśnie z omawianą pozycją. W twardych okładach, w formacie B5 i na pięknym, kredowym papierze, znalazło się 222 polskich gier z lat 1983-2019. Każda strona to duża grafika, z kilkoma zdaniami o grze od autora książki, a czasem również dodatkowy, akapitem od osób tworzących dany kawałek softu. Wybór gier jest na tyle szeroki, że można śmiało powiedzieć, iż wybrano faktycznie najbardziej znaczące i rozpoznawalne tytuły. Jako,

Licznik Blogowy - wersja 0.6, czyli własne statystyki i wykresy tuż pod ręką

Zapewne wielu z Was pamiętam, a może i używa:) , mojej wtyczki Licznik Blogowy do najpopularniejszych przeglądarek, skierowanej do blogerów na portalu dobreprogramy. Jeśli ktoś nie kojarzycie, to w skrócie: Licznik Blogowy to wtyczka do Chroma/Opery/Firefoxa. Za jej pomocą przejrzycie szybko pełne statystyki swoich wpisów na blogu. Lista wpisów może być sortowana wg: ilości wyświetleń, ilości komentarzy, daty publikacji i adnotacji moderacji. Łatwo znajdziecie publikacje, oznaczone przez moderatorów, a to wszystko w estetycznej i miłej formie, dostosowanej do wybranej skórki na blogu. Licznik Blogowy 0.6 - czas na własne wykresy! :) Ostatnia odsłona wtyczki przyniosła ciekawe refleksje po rozmowie z szanownym Panem Mordziem. Zaproponował on, aby wtyczka mogła generować wykresy na podstawie zebranych danych. Pomysł wydał mi się niezmiernie interesujący, stąd też obecna aktualizacja (0.6) przynosi możliwość tworzenia wykresów, opierając się na zabranych danych. Używani

Oprogramowanie z czasopism - wątpliwa przyjemność?

Środek tygodnia, w skrzynce pocztowej pojawia się świeżutki numer Chipa. Jak zawsze szybko rozrywam folie (srut!), wyszukuję płytę(y) dołączonej do magazynu, gdzieś ukrytej pomiędzy stronami. Sukces! Tutaj już postępuje delikatniej, opuszkami palców dostaję się powoli do spoiwa łączącego tekturową kopertę DVD z kartką. Już tylko chwila dzieli mnie od odseparowania DVD od magazynu.... (trach)... niech to! Kartka się porwała, no cóż, nie pozostaje mi nic innego, jak brutalnie wyrwać to coś razem ze stroną. Z drugiej strony i tak pewnie jest reklama (ups... nie tym razem :P). W taki sposób, chcąc pozbyć się zbędnej (?) płyty DVD z Chipa, doszedłem do wniosku, iż od kiedy ponownie zaprenumerowałem czasopismo (na dwa lata, a było to już hmm, prawie dwa lata temu?), ani razu nawet nie włożyłem płyty do czytnika! W sumie przeglądając magazyny często zwracamy uwagę na dodatki do czasopism. W sieci jest wiele stron, których jedynym celem są owe dodatki ( http://www.markolf.pl/ , http://ww

"Amerykański sen" Microsoftu, na którym traci Windows Phone

Do poniższych przemyśleń doszedłem w ostatnim czasie, po publikacji danych na temat regionalizacji w ekosystemie Windows Phone. Są to dwie, ważne informacje. Szczególnie ważne dla nas, użytkowników z Polski (jak i wszystkich spoza USA). Microsoft jako cel postawił sobie zawojowanie rynku USA. To widać od początku powstania Windows Phone. Cały system nakierowany jest przed wszystkim na rynek amerykański. Jak to wygląda z punktu widzenia Polaków oraz jak rozwija się Windows Phone w USA? Windows Phone 7.x - pozdrawiamy użytkowników spoza USA Otóż urządzenia z Windows Phone 7 nie miały nawet polskiego interfejsu, czy klawaitury. Co było dość uciążliwe z oczywistych względów. Te pojawiły się dopiero rok po premierze, wraz z wydaniem dużej aktualizacji do 7.5 tzw. Mango . Oczywiście to nie koniec przykładów jak Microsoft traktuje klientów spoza USA. Linia Windows Phone 7.x ma nadal kilka małych "dodatków", które świadczą jak producent mobilnych okienek podchodzi do klien

Migracja starej wtyczki do nowej wersji Visual Studio 2017

Tworząc dodatek do Visual Studio zapewne wiele osób będzie uczyło się poprzez analizę kodu istniejących już dodatków (chociażby ze źródeł na GitHubie od MS ). Okazuje się jednak, że projekty pluginów stworzonych pod stare IDE zupełnie nie chcą kompilować się w nowej odsłonie Visual Studio. Jesteśmy zmuszeni do ręcznej migracji takich dodatków. Oto poradnik jak tego dokonać. Automatyczna aktualizacji (standardowa) Otwierając projekt, który został stworzony w starym IDE, w nowym Visual Studio 2017 dostaniemy standardowy komunikat o automatycznej aktualizacji. Nie mamy wyjścia i godzimy się na to. Po chwili projekt jest już gotowy na działanie w nowej wersji IDE. Niestety próba builda zakończy się niepowodzeniem. W tym momencie musimy sami przejść przez kluczowe elementy projektu, aby zaktualizować ręcznie dodatek. Nowe paczki z NuGeta Zaczniemy migrację o pobrania nowych paczek z NuGeta. Na zakładce aktualizujemy dostępne nowe składniki i restartujemy IDE, jeśli jest

Niezbędne, "zakazane" aplikacje do Windows Phone 7.5

Świat Windows Phone i nie tylko, czeka z niecierpliwością na nowe wcielenie systemu w wersji 8. Aby umilić czas, przygotowałem kolejną porcję aplikacji, których nie sposób znaleźć w Marketplace. Przedstawione niżej programy, rozszerzają możliwość konfiguracji Windows Phone, a także dodają nowe funkcje, niezbędne dla części z nas. W skrócie o czym dziś będzie mowa: WinTT - tweaker BlueManager - przesyłanie plików przez Bluetooth Orientation Lock - blokowanie autorotacji obrazu WinTT WinTT jest jednym z pierwszych tweakerów jakie powstały na Windows Phone. Oferuje on całkiem pokaźna liczbę opcji, dzięki którym można skonfigurować mobilne okienka. Aplikacja została podzielona na kilka grup, oto krótkie omówienia najciekawszych, dostępnych funkcji: Tweaks - kilka przydatnych opcji do włączenia. Warto zwrócić uwagę na: możliwość zwiększenia ilość zakładek w IE włączenie dostępu do Marketplace/Muzyki/Wideo podczas synchronizacji z Zune wymuszenie

Krew, pot i piksele, czyli branża gier crunchem stoi. Recenzja książki Schreiera Jasona

Branża gier już od dłuższego czasu przynosi znacznie większe zyski niż przemysł filmowy i muzyczny razem wzięty. Przypomnę tylko, że nowy Spider-Man, wydany tylko na konsole PS4, w weekend otwarcia zarobił prawie dwa razy tyle co film Spider-Man: Homecoming... Co ważne, zarabiają tu nie tylko tuzy gamedevu jak EA, Blizzard czy Activision, ale również jednoosobowe firemki, które swoim produktem trafiły w serca graczy. Szybki i łatwy dostęp do potencjalnych klientów m.in. dzięki Steamowi czy innym platformom cyfrowym, powoduje olbrzymi wysyp gier. Z tego zalewu produkcji tylko nielicznym się udaje, ale sukces może być na tyle spektakularny, że branża gier ciągle sama się nakręca. Z racji dość młodego wieku branży gier, dobrych książek opisujących gamedev od kuchni jest niezmienienie mało. Stąd też z drżącymi rękami zacząłem lekturę książki " *Krew, pot i piksele. Chwalebne i niepokojące opowieści o tym, jak robi się gry" * Schreiera Jasona.  Gamedev crunchem stoi Ca

Windows Phone 7 w LG E900

Na wstępie dziękuje za zaproszenie na HotZlot. To było niesamowite przeżycie! Możliwość porozmawiania z ludźmi z redakcji i z czytelnikami dobrych programów, których znało się jedynie z xywek/avatarów - bezcenne :) Wpis nigdy by nie powstał, gdyby nie konkurs na Kinecta, gdzie udało mi się wywalczyć w boksie - LG z Windows Phone 7 :) Pozdro dla wszystkich uczestników konkursu :) Pierwsze kroki w Windows Phone 7 Windows Phone 7 miałem okazje zobaczyć już w okolicach października/listopada 2010. W większości przeważały opinie, iż jest brzydki i mało intuicyjny. Wówczas po minucie spędzonej z nim, nie można było myśleć inaczej. Teraz mając go już dłużej, dochodzę do wniosku, iż jest on... na swój sposób piękny;) Po pierwszym uruchomieniu widzimy ekran główny z kafelkami. Zaskoczeniem jest, to iż nie ma znanego wszystkim pulpitu jak z Androida. Przypomina to raczej iOS. Tutaj jednak postawiono na przejrzystość i funkcjonalność. Na wstępnie dodam, iż telefon został zaktualizowany

Humble Voxatron Debut + tanie gry

Ponownie The Humble Indie Bundle atakuje nas świetną promocją. W skrócie czym jest Humble Indie Bundle: kupujesz gry za dowolne pieniądze gry są multiplatformowe brak zabezpieczeń pieniądze idą m.in. na cele charytatywne Pod http://www.humblebundle.com/ znajdziecie więcej szczegółów. W nowej odsłonie The Humble Indie Bundle, która obecnie zwie się: Humble Voxatron Debut możemy otrzymać Voxatron, a także jeśli wpłata przekroczy średnią aktualnych wpłat: The Binding of Isaac i Blocks That Matter. Voxatron Tytułowa pozycja to strzelanka z rzutem izometrycznym. Grę otrzymujemy w wersji alfa. Jest to jednocześnie pra-premiera. Nie posiada ona jednak jakiś znaczących defektów, przez co można spokojnie grać :) Mamy również gwarancję, iż będziemy dostawać wszelkie aktualizacje i dodatki, jakie otrzyma. Voxatron przy pierwszym uruchomieniu zachwyca, śwetną oprawą muzyczną. Tytułowy motyw z menu, przypomina stare czasy, kiedy muzykę z menu nuciło się jeszcze długo po