Przejdź do głównej zawartości

Bad Word Detector — własna wtyczka do detekcji wulgaryzmów w Visual Studio

Tworząc w IDE zapewne nieraz natknęliście się na kod źródłowy, który zawierał wulgaryzmy czy to w postaci komentarza, czy to w postaci nazw zmiennych. Również my sami lubimy wstawić gdzieś w kodzie "kupę" lub inny równie ciekawy zwrot.

Niestety czasem takie "kwiatki" wychodzą na produkcję i nie są może czymś karygodnym lub niebezpiecznym, ale wizerunkowo raczej nikt na tym nie zyskuje. Ostatnio pisał Niebezpiecznik chociażby o "fakach" na stronce OKE

desk

a kilka dni wcześniej podobnie "wpadł" Citibank.

Tworząc na konkurs wtyczkę Healthy With VS wpadłem na pomysł, aby stworzyć dodatek do Visual Studio, który mógłby zaradzić takim problemom. Bad Word Detector, bo tak nazwałem ten nano-projekt, wykrywa wulgaryzmy w kodzie źródłowym edytora i je zaznacza. Obecnie jest to dopiero pierwsza wersja, ale mimo to już może być przydatna.

desk

Lista wulgaryzmów obecnie ograniczona jest do języka angielskiego, ale w przyszłości będzie rozszerzona o inne języki, w tym polski. Baza słów została zaczerpnięta z projektu na GitHbie LDNOOBW, czyli List of Dirty, Naughty, Obscene, and Otherwise Bad Words . Tak, takie rzeczy też można znaleźć na GitHubie :)

Projekt jest już gotowy do przetestowania w Visual Studio. Można go pobrać z marketu: Bad Word Detector lub z poziomu IDE.

Źródła projektu dostępne są na GitHubie.

Teraz trochę o tym jak taka wtyczka została zrobiona.

Jak działa Bad Word Detector?

Tworzymy nowy projekt w VS typu VSIXProject (gałąź Extensibility). Następnie do pustego projektu dodajemy element Editor Classifier

desk

Ten szablon pozwoli na stworzenie wtyczki, która będzie kolorowała składnię w Visual Studio.

Dostaniemy tutaj m.in.

EditorClassifierFormat , który odpowiada za formatowanie kolorowania składni

EditorClassifier przesyłający kawałki edytora tekstu, które się zmieniły, w celu analizy czy należy zastosować formatowanie lub nie

W tym przypadku nasz plik BadWordEditorClassifierFormat posiada następujący opis formatowania


this.DisplayName = "BadWordEditorClassifier"; // Human readable version of the name
this.BackgroundColor = Colors.DarkRed;
this.ForegroundColor = Colors.WhiteSmoke;
this.TextDecorations = System.Windows.TextDecorations.Underline;
this.IsBold = true;

Jest tu informacja o kolorach zaznaczenia i pogrubieniu, a także nazwa.

W tym miejscu zaznaczamy także za pomocą atrybutów, aby nasz klasyfikator był odpalany na końcu poprzez ustawienie Order :


[Export(typeof(EditorFormatDefinition))]
[ClassificationType(ClassificationTypeNames = "BadWordEditorClassifier")]
[Name("BadWordEditorClassifier")]
[UserVisible(true)] // This should be visible to the end user
[Order(After = Priority.High)] // Set the priority 
internal sealed class BadWordEditorClassifierFormat : ClassificationFormatDefinition
{
   //...
}

Sprawdzenie czy wtyczka powinna zaznaczyć tekst odbywa się w klasie BadWordEditorClassifier w metodzie GetClassificationSpans . Wygląda ona następująco:



public IList<ClassificationSpan> GetClassificationSpans(SnapshotSpan span)
{
    var result = new List<ClassificationSpan>();
    var badDetails = BadService.Instance.BadWordsDetails(span.GetText());
    if (badDetails != null)
    {
        badDetails.ForEach(x =>
        {
            result.Add(new ClassificationSpan(new SnapshotSpan(span.Snapshot, 
                (span.Span.Start + x.StartIndex), x.Length), this.classificationType));
        });
    }
    return result;
}


GetClassificationSpans jako parametr ma analizowany tekst z edytora. Metoda sprawdza zewnętrznym serwisem BadService , czy w zaznaczonym tekście są wulgaryzmy. Jeśli tak, wówczas w pętli tworzy elementy z edytora jakie powinny zostać zaznaczone za pomocą naszego formatera. Metoda BadWordsDetails zwraca początkowy indeks z wulgaryzmem i jego długość. Pozwala to na dokładne określenie miejsca do podkreślenia.

Sam BadService jest Singletonem i przy pierwszym odwołaniu zaczytuje wulgaryzmy z pliku do pamięci. Detekcja sprowadza się do użycia Regexów:


public List<BadWordInfo> BadWordsDetails(string input)
{
    if (input != null && OnlyAlphaRegex.IsMatch(input))
    {
        List<BadWordInfo> indexList = new List<BadWordInfo>();
        BadList.ForEach(bad =>
        {
            var badMatch = Regex.Match(input, @"\b" + bad + @"\b", RegexOptions.IgnoreCase);
            while (badMatch.Success)
            {
                indexList.Add(new BadWordInfo(badMatch.Index, bad.Length));
                badMatch = badMatch.NextMatch();
            }

        });
        return indexList.Any() ? indexList : null;
    }
    return null;
}

Na początku sprawdzamy czy tekst do analizy nie jest pusty i czy ma jakieś znaki z alfabetu. Te ostatnie jest robione przy pomocy skompilowanego Regexa:


private Regex OnlyAlphaRegex = new Regex(@"[a-zA-Z]", RegexOptions.Compiled);

Następnie iterujemy po kolejnych słowach i sprawdzamy czy całe przekleństwo (nie wyraz w środku ) występuje w tekście. Jeśli tak, to zapisujemy miejsce wystąpienia i długość wulgaryzmu. W jednym fragmencie może być kilka wystąpień , stąd też brane pod uwagę są wszystkie detekcje.

I oto główny core wtyczki Bad Word Detector. W przyszłości planuję dodanie innych języków z możliwością aktywacji ich w ustawieniach. Zapraszam do testów i zgłaszania uwag. Mam nadzieję, że wtyczka będzie przydatna :)

desk

Pobierz: Bad Word Detector

Komentarze

Popularne posty z tego bloga

Licznik Blogowy - wersja 0.6, czyli własne statystyki i wykresy tuż pod ręką

Zapewne wielu z Was pamiętam, a może i używa:) , mojej wtyczki Licznik Blogowy do najpopularniejszych przeglądarek, skierowanej do blogerów na portalu dobreprogramy.Jeśli ktoś nie kojarzycie, to w skrócie: Licznik Blogowy to wtyczka do Chroma/Opery/Firefoxa. Za jej pomocą przejrzycie szybko pełne statystyki swoich wpisów na blogu. Lista wpisów może być sortowana wg: ilości wyświetleń, ilości komentarzy, daty publikacji i adnotacji moderacji. Łatwo znajdziecie publikacje, oznaczone przez moderatorów, a to wszystko w estetycznej i miłej formie, dostosowanej do wybranej skórki na blogu.Licznik Blogowy 0.6 - czas na własne wykresy! :)Ostatnia odsłona wtyczki przyniosła ciekawe refleksje po rozmowie z szanownym Panem Mordziem. Zaproponował on, aby wtyczka mogła generować wykresy na podstawie zebranych danych. Pomysł wydał mi się niezmiernie interesujący, stąd też obecna aktualizacja (0.6) przynosi możliwość tworzenia wykresów, opierając się na zabranych danych.Używanie nowej funkcji jes…

Humble Voxatron Debut + tanie gry

Ponownie The Humble Indie Bundle atakuje nas świetną promocją.W skrócie czym jest Humble Indie Bundle:kupujesz gry za dowolne pieniądzegry są multiplatformowebrak zabezpieczeńpieniądze idą m.in. na cele charytatywnePod http://www.humblebundle.com/ znajdziecie więcej szczegółów.W nowej odsłonie The Humble Indie Bundle, która obecnie zwie się: Humble Voxatron Debut możemy otrzymać Voxatron, a także jeśli wpłata przekroczy średnią aktualnych wpłat: The Binding of Isaac i Blocks That Matter.VoxatronTytułowa pozycja to strzelanka z rzutem izometrycznym. Grę otrzymujemy w wersji alfa. Jest to jednocześnie pra-premiera. Nie posiada ona jednak jakiś znaczących defektów, przez co można spokojnie grać :) Mamy również gwarancję, iż będziemy dostawać wszelkie aktualizacje i dodatki, jakie otrzyma.Voxatron przy pierwszym uruchomieniu zachwyca, śwetną oprawą muzyczną. Tytułowy motyw z menu, przypomina stare czasy, kiedy muzykę z menu nuciło się jeszcze długo po tym jak wyłączyliśmy grę.Nie sposób …

222 polskie gry, które warto znać - Marcin Kosman, recenzja książki

Marcin Kosman dał się poznać jako autor ciekawej pozycji o polskim game devie: "Nie tylko Wiedźmin. Historia polskich gier komputerowych". Po pięciu latach wraca z nową książką, również związaną z polską branżą grową, ale w zupełnie innej formie.222 polskie gry"222 polskie gry, które warto znać" to wyjątkowa książka. Co więcej, to nie jest książka jako taka, a bliżej jej do albumu. W języku angielskim funkcjonują one jako tzw. "Coffee table books", czyli książki/albumy bardziej do oglądania, niż do czytania.Tak jest właśnie z omawianą pozycją. W twardych okładach, w formacie B5 i na pięknym, kredowym papierze, znalazło się 222 polskich gier z lat 1983-2019. Każda strona to duża grafika, z kilkoma zdaniami o grze od autora książki, a czasem również dodatkowy, akapitem od osób tworzących dany kawałek softu.Wybór gier jest na tyle szeroki, że można śmiało powiedzieć, iż wybrano faktycznie najbardziej znaczące i rozpoznawalne tytuły. Jako, że przygodę zacząłe…

Nokia Lumia 900 - recenzja najmocniejszego smartfona od Finów

Za nami już prezentacja nowego Windows Phone 8 oraz kilku urządzeń działających pod tym systemem. Takie cuda jak Nokia Lumia 920 / 820, HTC 8X / 8S, czy sporych rozmiarów Samsung Ativ S (4.8 calowy ekran) są marzeniem wielu z nas. Obecnie jednak ceny są dość wysokie (chociaż HTC 8S ma być już za 1300 zł..., tylko to nie Lumia... o czym na końcu tego wpisu), a i dostępność urządzeń na naszym rynku pozostawia wiele do życzenia. Cóż można zrobić w takiej sytuacji? Otóż nic nie stoi na przeszkodzie, aby zakupić jedną z najlepszych słuchawek jakie wyszły w tym roku. Mowa oczywiście o Nokia Lumia 900, która pomimo tego, iż posiada Windows Phone 7, jest niesamowicie warta uwagi. Czym się charakteryzuje? Czy warto ją kupić? Jakie ma wady i zalety? Na te i inne pytania znajdziesz odpowiedź w tym wpisie. Zapraszam!HardwareNokia Lumia 900 jest najwyższym modelem od Finów. Moim skromnym zdaniem, to również najbardziej atrakcyjne urządzenie pracujące na Windows Phone 7, ale o tym za chwilę. "…

Windows Phone 7 w LG E900

Na wstępie dziękuje za zaproszenie na HotZlot. To było niesamowite przeżycie! Możliwość porozmawiania z ludźmi z redakcji i z czytelnikami dobrych programów, których znało się jedynie z xywek/avatarów - bezcenne :) Wpis nigdy by nie powstał, gdyby nie konkurs na Kinecta, gdzie udało mi się wywalczyć w boksie - LG z Windows Phone 7 :) Pozdro dla wszystkich uczestników konkursu :)Pierwsze kroki w Windows Phone 7Windows Phone 7 miałem okazje zobaczyć już w okolicach października/listopada 2010. W większości przeważały opinie, iż jest brzydki i mało intuicyjny. Wówczas po minucie spędzonej z nim, nie można było myśleć inaczej.Teraz mając go już dłużej, dochodzę do wniosku, iż jest on... na swój sposób piękny;) Po pierwszym uruchomieniu widzimy ekran główny z kafelkami. Zaskoczeniem jest, to iż nie ma znanego wszystkim pulpitu jak z Androida. Przypomina to raczej iOS. Tutaj jednak postawiono na przejrzystość i funkcjonalność.Na wstępnie dodam, iż telefon został zaktualizowany do najnowsz…

Windows Phone 7 - aplikacje na start

Czekając na premierę aktualizacji Mango do Windows Phone 7, która ma być wydana już na dniach, postanowiłem stworzyć wpis, opisujący aplikacje (darmowe) warte zainstalowania na swoim smartfonie.Jeśli nie wiesz co zainstalować "na dzień dobry" w Windows Phone 7, szukasz jakiś ciekawych aplikacji na swojego smartfona lub po prostu chcesz być na bieżąco z softem - ten wpis jest dla Ciebie! :) Smacznego ;)linki prowadzą do aplikacji Zune; jeśli nie ma linku to znaczy, że program nie był dostępny poprzez Zune, ale można go pobrać bezpośrednio z Marketplaceśrednia ocen i ilość recenzji dla każdego programu były brane z AppFlowMarketplace - wyszukiwarki (gorąco polecam!)AppFlow Ocena: 4,70/5 Recenzji: 230 Genialny program do wyszukiwania w Marketplace. To jest ta aplikacja od której warto zacząć przygodę z Windows Phone 7. Do wybory Top50 w następujących kategoriach:Top Indie Games- najlepsze gry niezależne,Top XBox Games - najlepsze gry na platformę Xbox na WP7,New & Impre…

Dysk SSD z Windows - konfiguracja

Wpis chcę zacząć od złożenia podziękowań na ręce Redakcji dobrychprogramów za wyróżnienie "bloger kwartału" i nagrodzenie dyskiem SSD (Kingston SSDNow V+100 96 GB - miodzio). Bardzo dziękuję za docenienie takiego szaraczka jak ja :) Mam nadzieję, że będę miał szansę się wyróżnić (i zasłużyć na wyróżnienie:P) oraz na to, aby zaskoczyć zarówno czytelników dobrychprogramów jak i Redakcję :)Kingston SSDNow V+100 96 GB - to nie jest recenzjaNie chce się powtarzać pisząc recenzję dysku SSD, którą zrobił już wcześniej Ave5 /pozdrawiam %) /. Różnica jest jedynie w większej pojemności.Ten wpis chciałbym poświecić konfiguracji dysku pod Windowsami. Ze względu na to, iż charakterystyka SSD wymusza pewnie działa, które dla dysku HDD nie miałyby sensu, a nawet powodowałyby spadek wydajności. Zanim jednak przejdę do optymalizacji...Krótko dodam kilka spostrzeżeń, odnośnie dysku SSD. Podczas zwykłem pracy, nie czuć przycięć i charakterystycznego dla dysków HDD, doczytywania danych, przy d…

Bazaar - alternatywny Windows Phone Marketplace z PC!

O Bazaar można było już usłyszeć. Jest to alternatywny Marketplace dla Windows Phone, który jest zbiorem aplikacji, których próżno szukać w Microsoftowym sklepie. W jednym miejscu otrzymujemy zbiór programów typu homebrew.Do tej pory był on dostępny jedynie poprzez aplikację instalowaną na odblokowane urządzenia z Windows Phone. Aby móc z niego ściągać na smartfona, należało mieć w pełni odblokowany system, wymagało to jednak przeinstalowania firmwareu na odpowiednio zmodyfikowany. Nie każdy chciał, ale i mógł to zrobić, gdyż jedynie kilka urządzeń doczekało się zmodyfikowanego systemu Windows Phone.Na szczęście ukazała się aplikacja desktopowa na Windowsa (do pobrania tutaj ), która pozwala na instalowanie aplikacji homebrew na urządzenia odblokowane już nawet developersko! Nic nie stoi na przeszkodzie, aby móc zapoznać się z alternatywnym Marketplace!Aby móc korzystać z Bazaar for PC potrzebujemy:odblokowany telefon (developersko+)Zune na PCzainstalowane Windows Phone SDKBazaar for…

Programistok - Białystok dla programistów i nie tylko

W Białymstoku powstała bardzo ciekawa inicjatywa promująca nowe technologie i trendy w programowaniu - Programistok. (Programistok na Facebooku: http://www.facebook.com/pages/Programistok/237808102923666 )Cykliczne spotkania będą omawiać m.in. programowanie na urządzenia mobilne, testowanie aplikacji, projektowanie interfejsów użytkownika czy pisanie lepszego, czystszego kodu. Każdy zainteresowany może zgłosić swoją propozycjię prezentację (20 - 30 minut).Impreza organizowana przy udziale firmy AmberBit (http://amberbit.com/ )Cele jakie przyświecają Programistokowi:integracja podlaskiego (i nie tylko) środowiska programistów poprzez wymianę pomysłów, doświadczeń wśród wielu różnych technologii związanych z internetem - nie ma narzędzi idealnych, każdy projekt warto rozpatrzyć indywidualniena spotkaniu są różnorodni ludzie, więc dobra okazja na poszukanie nowej pracy lub znalezienie pracownikaspotkanie raz w miesiącu w luźnej atmosferze (Pub Mao, Młynowa 44, http://www.mao.com.pl/ )…

Zdrowa praca przy komputerze cz. 2 - Urządzenia wspomagające

Postanowiłem dodać, króciutki wpis o pewnym małym urządzeniu, które zakupiłem kilka lat temu, pod wpływem artykułu w gazecie (niech mają! :P) CD-ACTION. Recenzent zachwycał się kuleczką, którą kręcił w dłoni. Uznałem to za kolejny zbędny gadżet, aż do momentu, gdy uświadomiłem, sobie, iż jestem w grupie podwyższonego ryzyka narażonego na zespół cieśni nadgarstka. Poza tym zbliżały się Święta i pomyślałem, że kupie sobie coś ciekawego (ile można dostawać skarpet i krawatów :P)Zespół cieśni nadgarstkaStan chorobowy tworzy się w wyniku długotrwałego nacisku na nerw pośrodkowy, biegnący w kanale nadgarstka. Powstaje ona często, gdy wykonujemy te same czynności ruchowe. W naszym przypadku na wskutek długotrwałego pisania na klawiaturze / używania myszki bez specjalnych podkładek.Objawy zespołu cieśni nadgarstka:osłabienie chwytuproblemy z zaciśnięciem ręki w pięśćmrowienie / bóle w nadgarstku / palcachosłabione czucie w palcachwypadanie trzymanych przedmiotów z rękiObjawy często pojawiają…