Przejdź do głównej zawartości

Bad Word Detector — własna wtyczka do detekcji wulgaryzmów w Visual Studio

Tworząc w IDE zapewne nieraz natknęliście się na kod źródłowy, który zawierał wulgaryzmy czy to w postaci komentarza, czy to w postaci nazw zmiennych. Również my sami lubimy wstawić gdzieś w kodzie "kupę" lub inny równie ciekawy zwrot.

Niestety czasem takie "kwiatki" wychodzą na produkcję i nie są może czymś karygodnym lub niebezpiecznym, ale wizerunkowo raczej nikt na tym nie zyskuje. Ostatnio pisał Niebezpiecznik chociażby o "fakach" na stronce OKE

desk

a kilka dni wcześniej podobnie "wpadł" Citibank.

Tworząc na konkurs wtyczkę Healthy With VS wpadłem na pomysł, aby stworzyć dodatek do Visual Studio, który mógłby zaradzić takim problemom. Bad Word Detector, bo tak nazwałem ten nano-projekt, wykrywa wulgaryzmy w kodzie źródłowym edytora i je zaznacza. Obecnie jest to dopiero pierwsza wersja, ale mimo to już może być przydatna.

desk

Lista wulgaryzmów obecnie ograniczona jest do języka angielskiego, ale w przyszłości będzie rozszerzona o inne języki, w tym polski. Baza słów została zaczerpnięta z projektu na GitHbie LDNOOBW, czyli List of Dirty, Naughty, Obscene, and Otherwise Bad Words . Tak, takie rzeczy też można znaleźć na GitHubie :)

Projekt jest już gotowy do przetestowania w Visual Studio. Można go pobrać z marketu: Bad Word Detector lub z poziomu IDE.

Źródła projektu dostępne są na GitHubie.

Teraz trochę o tym jak taka wtyczka została zrobiona.

Jak działa Bad Word Detector?

Tworzymy nowy projekt w VS typu VSIXProject (gałąź Extensibility). Następnie do pustego projektu dodajemy element Editor Classifier

desk

Ten szablon pozwoli na stworzenie wtyczki, która będzie kolorowała składnię w Visual Studio.

Dostaniemy tutaj m.in.

EditorClassifierFormat , który odpowiada za formatowanie kolorowania składni

EditorClassifier przesyłający kawałki edytora tekstu, które się zmieniły, w celu analizy czy należy zastosować formatowanie lub nie

W tym przypadku nasz plik BadWordEditorClassifierFormat posiada następujący opis formatowania


this.DisplayName = "BadWordEditorClassifier"; // Human readable version of the name
this.BackgroundColor = Colors.DarkRed;
this.ForegroundColor = Colors.WhiteSmoke;
this.TextDecorations = System.Windows.TextDecorations.Underline;
this.IsBold = true;

Jest tu informacja o kolorach zaznaczenia i pogrubieniu, a także nazwa.

W tym miejscu zaznaczamy także za pomocą atrybutów, aby nasz klasyfikator był odpalany na końcu poprzez ustawienie Order :


[Export(typeof(EditorFormatDefinition))]
[ClassificationType(ClassificationTypeNames = "BadWordEditorClassifier")]
[Name("BadWordEditorClassifier")]
[UserVisible(true)] // This should be visible to the end user
[Order(After = Priority.High)] // Set the priority 
internal sealed class BadWordEditorClassifierFormat : ClassificationFormatDefinition
{
   //...
}

Sprawdzenie czy wtyczka powinna zaznaczyć tekst odbywa się w klasie BadWordEditorClassifier w metodzie GetClassificationSpans . Wygląda ona następująco:



public IList<ClassificationSpan> GetClassificationSpans(SnapshotSpan span)
{
    var result = new List<ClassificationSpan>();
    var badDetails = BadService.Instance.BadWordsDetails(span.GetText());
    if (badDetails != null)
    {
        badDetails.ForEach(x =>
        {
            result.Add(new ClassificationSpan(new SnapshotSpan(span.Snapshot, 
                (span.Span.Start + x.StartIndex), x.Length), this.classificationType));
        });
    }
    return result;
}


GetClassificationSpans jako parametr ma analizowany tekst z edytora. Metoda sprawdza zewnętrznym serwisem BadService , czy w zaznaczonym tekście są wulgaryzmy. Jeśli tak, wówczas w pętli tworzy elementy z edytora jakie powinny zostać zaznaczone za pomocą naszego formatera. Metoda BadWordsDetails zwraca początkowy indeks z wulgaryzmem i jego długość. Pozwala to na dokładne określenie miejsca do podkreślenia.

Sam BadService jest Singletonem i przy pierwszym odwołaniu zaczytuje wulgaryzmy z pliku do pamięci. Detekcja sprowadza się do użycia Regexów:


public List<BadWordInfo> BadWordsDetails(string input)
{
    if (input != null && OnlyAlphaRegex.IsMatch(input))
    {
        List<BadWordInfo> indexList = new List<BadWordInfo>();
        BadList.ForEach(bad =>
        {
            var badMatch = Regex.Match(input, @"\b" + bad + @"\b", RegexOptions.IgnoreCase);
            while (badMatch.Success)
            {
                indexList.Add(new BadWordInfo(badMatch.Index, bad.Length));
                badMatch = badMatch.NextMatch();
            }

        });
        return indexList.Any() ? indexList : null;
    }
    return null;
}

Na początku sprawdzamy czy tekst do analizy nie jest pusty i czy ma jakieś znaki z alfabetu. Te ostatnie jest robione przy pomocy skompilowanego Regexa:


private Regex OnlyAlphaRegex = new Regex(@"[a-zA-Z]", RegexOptions.Compiled);

Następnie iterujemy po kolejnych słowach i sprawdzamy czy całe przekleństwo (nie wyraz w środku ) występuje w tekście. Jeśli tak, to zapisujemy miejsce wystąpienia i długość wulgaryzmu. W jednym fragmencie może być kilka wystąpień , stąd też brane pod uwagę są wszystkie detekcje.

I oto główny core wtyczki Bad Word Detector. W przyszłości planuję dodanie innych języków z możliwością aktywacji ich w ustawieniach. Zapraszam do testów i zgłaszania uwag. Mam nadzieję, że wtyczka będzie przydatna :)

desk

Pobierz: Bad Word Detector

Komentarze

Popularne posty z tego bloga

Oni migają tymi kolorami w sposób profesjonalny. Narodziny gamedevu z ducha demosceny w Polsce - Piotr Marecki i Tomasz TDC Cieślewicz, recenzja książki

Tytuł książki jest mocno rozbudowany i zapewne pierwsze spojrzenie na okładkę może odstraszyć potencjalnego klienta, jednakże, warto dać szansę tej pozycji. Zaskoczeń jest kilka, chociaż nie tylko tych pozytywnych. Zatem przejdźmy do krótkiej recenzji "Oni migają tymi kolorami w sposób profesjonalny". TDC - Demoscena, Atari, Mirage i piractwo w Polsce Książka jest zbiorem historii opowiadanych przez Tomasza TDC Cieślewicza. Swoje przygody z IT zaczął w 1988 roku, kiedy to otrzymał Atari 800 XL. Od 1989 roku związany był z Mirage i jako jeden z najmłodszych tworzył gry na rynek polski. Był również współpracownikiem "Bajtka" i członkiem redakcji "Atari Magazynu". Bardzo mocno związany z demosceną Atari, gdzie tworzy do dziś. Zaangażowany w szkolenia i warsztaty z programowania. Obecnie redaktor Atarionline.pl Przyznaję, że wcześniej nie słyszałem o Tomaszu Cieślewiczu, ale po przeczytaniu tej książki śmiało można powiedzieć, że dziś zapewne byłby fre

222 polskie gry, które warto znać - Marcin Kosman, recenzja książki

Marcin Kosman dał się poznać jako autor ciekawej pozycji o polskim game devie: " Nie tylko Wiedźmin. Historia polskich gier komputerowych ". Po pięciu latach wraca z nową książką, również związaną z polską branżą grową, ale w zupełnie innej formie. 222 polskie gry "222 polskie gry, które warto znać" to wyjątkowa książka. Co więcej, to nie jest książka jako taka, a bliżej jej do albumu. W języku angielskim funkcjonują one jako tzw. "Coffee table books", czyli książki/albumy bardziej do oglądania, niż do czytania. Tak jest właśnie z omawianą pozycją. W twardych okładach, w formacie B5 i na pięknym, kredowym papierze, znalazło się 222 polskich gier z lat 1983-2019. Każda strona to duża grafika, z kilkoma zdaniami o grze od autora książki, a czasem również dodatkowy, akapitem od osób tworzących dany kawałek softu. Wybór gier jest na tyle szeroki, że można śmiało powiedzieć, iż wybrano faktycznie najbardziej znaczące i rozpoznawalne tytuły. Jako,

Licznik Blogowy - wersja 0.6, czyli własne statystyki i wykresy tuż pod ręką

Zapewne wielu z Was pamiętam, a może i używa:) , mojej wtyczki Licznik Blogowy do najpopularniejszych przeglądarek, skierowanej do blogerów na portalu dobreprogramy. Jeśli ktoś nie kojarzycie, to w skrócie: Licznik Blogowy to wtyczka do Chroma/Opery/Firefoxa. Za jej pomocą przejrzycie szybko pełne statystyki swoich wpisów na blogu. Lista wpisów może być sortowana wg: ilości wyświetleń, ilości komentarzy, daty publikacji i adnotacji moderacji. Łatwo znajdziecie publikacje, oznaczone przez moderatorów, a to wszystko w estetycznej i miłej formie, dostosowanej do wybranej skórki na blogu. Licznik Blogowy 0.6 - czas na własne wykresy! :) Ostatnia odsłona wtyczki przyniosła ciekawe refleksje po rozmowie z szanownym Panem Mordziem. Zaproponował on, aby wtyczka mogła generować wykresy na podstawie zebranych danych. Pomysł wydał mi się niezmiernie interesujący, stąd też obecna aktualizacja (0.6) przynosi możliwość tworzenia wykresów, opierając się na zabranych danych. Używani

Oprogramowanie z czasopism - wątpliwa przyjemność?

Środek tygodnia, w skrzynce pocztowej pojawia się świeżutki numer Chipa. Jak zawsze szybko rozrywam folie (srut!), wyszukuję płytę(y) dołączonej do magazynu, gdzieś ukrytej pomiędzy stronami. Sukces! Tutaj już postępuje delikatniej, opuszkami palców dostaję się powoli do spoiwa łączącego tekturową kopertę DVD z kartką. Już tylko chwila dzieli mnie od odseparowania DVD od magazynu.... (trach)... niech to! Kartka się porwała, no cóż, nie pozostaje mi nic innego, jak brutalnie wyrwać to coś razem ze stroną. Z drugiej strony i tak pewnie jest reklama (ups... nie tym razem :P). W taki sposób, chcąc pozbyć się zbędnej (?) płyty DVD z Chipa, doszedłem do wniosku, iż od kiedy ponownie zaprenumerowałem czasopismo (na dwa lata, a było to już hmm, prawie dwa lata temu?), ani razu nawet nie włożyłem płyty do czytnika! W sumie przeglądając magazyny często zwracamy uwagę na dodatki do czasopism. W sieci jest wiele stron, których jedynym celem są owe dodatki ( http://www.markolf.pl/ , http://ww

"Amerykański sen" Microsoftu, na którym traci Windows Phone

Do poniższych przemyśleń doszedłem w ostatnim czasie, po publikacji danych na temat regionalizacji w ekosystemie Windows Phone. Są to dwie, ważne informacje. Szczególnie ważne dla nas, użytkowników z Polski (jak i wszystkich spoza USA). Microsoft jako cel postawił sobie zawojowanie rynku USA. To widać od początku powstania Windows Phone. Cały system nakierowany jest przed wszystkim na rynek amerykański. Jak to wygląda z punktu widzenia Polaków oraz jak rozwija się Windows Phone w USA? Windows Phone 7.x - pozdrawiamy użytkowników spoza USA Otóż urządzenia z Windows Phone 7 nie miały nawet polskiego interfejsu, czy klawaitury. Co było dość uciążliwe z oczywistych względów. Te pojawiły się dopiero rok po premierze, wraz z wydaniem dużej aktualizacji do 7.5 tzw. Mango . Oczywiście to nie koniec przykładów jak Microsoft traktuje klientów spoza USA. Linia Windows Phone 7.x ma nadal kilka małych "dodatków", które świadczą jak producent mobilnych okienek podchodzi do klien

Windows Phone 7 w LG E900

Na wstępie dziękuje za zaproszenie na HotZlot. To było niesamowite przeżycie! Możliwość porozmawiania z ludźmi z redakcji i z czytelnikami dobrych programów, których znało się jedynie z xywek/avatarów - bezcenne :) Wpis nigdy by nie powstał, gdyby nie konkurs na Kinecta, gdzie udało mi się wywalczyć w boksie - LG z Windows Phone 7 :) Pozdro dla wszystkich uczestników konkursu :) Pierwsze kroki w Windows Phone 7 Windows Phone 7 miałem okazje zobaczyć już w okolicach października/listopada 2010. W większości przeważały opinie, iż jest brzydki i mało intuicyjny. Wówczas po minucie spędzonej z nim, nie można było myśleć inaczej. Teraz mając go już dłużej, dochodzę do wniosku, iż jest on... na swój sposób piękny;) Po pierwszym uruchomieniu widzimy ekran główny z kafelkami. Zaskoczeniem jest, to iż nie ma znanego wszystkim pulpitu jak z Androida. Przypomina to raczej iOS. Tutaj jednak postawiono na przejrzystość i funkcjonalność. Na wstępnie dodam, iż telefon został zaktualizowany

Zdrowe ciało, zdrowy duch, zdrowy programista — przegląd aplikacji

Dziś w temacie rozszerzenia do Visual Studio, ale bardziej od strony tego co już jest na rynku i z czego można już korzystać od święta . Tak jak już pisałem , Healthy with Visual Studio będzie wtyczką do Visual Studio, która zadba o przerwę i czas pracy. Może uda się również dorobić jakieś proste ćwiczenia, do rozluźnienia spiętych mięśni. Zrób sobie przerwę i poćwicz Obecnie na rynku jest bardzo duża liczba aplikacji, które pomogą w pracy przy komputerze. 6 lat temu przedstawiłem kilka programów , które do dziś dzień są liderami w swojej niszy. Postaram się w tym wpisie przedstawić je tutaj ponownie z omówieniem kilku nowych, które wydają się niezmiernie ciekawe. Workrave Program legenda. Chyba jedna z najbardziej rozbudowanych i znanych aplikacji. Multiplatformowa, niewielka, a jednocześnie bardzo pomocna. Od ostatniego wpisu w 2011 roku niemalże nic się nie zmieniło. Mamy zatem monitoring pracy z wymuszaniem przerw (czasem dosłownie!), wizualizację ćwiczeń czy

Zdrowa praca przy komputerze cz. 1 - Aplikacje wspomagające

Każdy z nas spędza przy komputerze pewien czas, prawie każdego dnia. Dla części jest to również narzędzie pracy. Często zapominamy, iż oprócz czystego biurka :) , należy zadbać o to by nie zaszkodzić sobie. W tym króciutkim, pierwszym wpisie o "Zdrowej pracy przy komputerze", chciałbym zacząć od zaprezentowania dwóch bardzo przydatnych aplikacji, zarówno w domu jak i w pracy. F.lux Pierwszą aplikacją jest mały program do oszczędzania naszych oczu podczas pracy w nocy. Ok, w nocy mało kto pracuje przy kompie, ale czytając tekst na jasnym tle przy sztucznym oświetleniu (powiedzmy jakaś żarówka) nasz wzrok bardzo się męczy. Problemem jest duży kontrast, pomiędzy bardzo jasnym wyświetlaniem obrazu przez monitor, a tłem naszego pokoju. Po dłuższej pracy oczy męczą się szybciej, niż przy naturalnym świetle. Przydatny w takich chwilach jest program F.lux [1]. Jego zadaniem jest jedynie (albo aż) dopasowanie jasności monitora, do oświetlenia panującego w pokoju. Aplikacja je

Tworzymy własny ValueConverter, czyli najbardziej przydatny obiekt w bindowaniu danych do widoku (XAML/C#)

Zapewne tworząc aplikacje w WPF czy UWP natknęliście się na to, że właściwość w modelu (ViewModelu) wymagała konwersja na inny typ lub inną wartość, aby móc jej użyć na widoku. Tworzenie jednak dodatkowych właściwości jest nieefektywne i zbędne. Z pocą przychodzi interfejs IValueConverter , który konwertuje jedne dane na drugie, bez konieczność rozszerzania obiektu. W moim przypadku musiałem przekwaterować status notyfikacji NotificationStatus (New, Old, Unknown) na Opacity (nieprzezroczystość). Na widoku nowe powiadomienia nie są przezroczyste, zaś stare mają przezroczystość ustawioną na 0.5. Efekt jest następujący: Oczywiście najbardziej używanym konwerterem jest: Bool <=> Visibility, czyli mając zmienną o typu Bool(true/false), chcemy sterować widocznością elementu (Visibility.Visible/Visibility.Collapsed).Przejdźmy jednak do naszego przykładu. Zamiast tworzyć nową właściwość, szybko tworzymy klasę implementującą interfejs IValueConverter. public sealed class S

jQuery - miłość od pierwszego wejrzenia!

[code].......##..#######..##.....##.########.########..##....## .......##.##.....##.##.....##.##.......##.....##..##..##. .......##.##.....##.##.....##.##.......##.....##...####.. .......##.##.....##.##.....##.######...########.....##... .##....##.##..##.##.##.....##.##.......##...##......##... .##....##.##....##..##.....##.##.......##....##.....##... ..######...#####.##..#######..########.##.....##....##... [/code] jQuery - write less, do more Chciałbym podzielić sie z Wami, pięknem jQuery [1] (dalej jq). Kilka miesięcy temu skandyn dodał wpis , w którym przedstawił pobieżnie, jak zrobić prosta galerię z jq, bez zagłębiania i wstępnej prezentacji geniuszu jq:). Tutaj chciałbym ogólnie zaprezentować jq, dla niewtajemniczonych (są jeszcze tacy?:)). Czym jest jq? Można powiedzieć, iż jest to biblioteka do Java Script (dalej js), która, pomaga w obsłudze js i drzew DOM. Jednakże robi to w tak finezyjny sposób, iż po pewnym czasie korzystania z niej, dochodzimy do wniosku, i