Luki w systemie "Plagiat.pl"



Jestem studentem V roku, w związku z czym zajmuję się teraz pisaniem pracy magisterskiej. Moja uczelnia (UW) wdrożyła niedawno system "Plagiat.pl", który ma na celu sprawdzanie oryginalności prac magisterskich. Ponieważ często spotykałem się zarówno z przestraszonymi studentami, którzy narzekali, jak to im utrudni życie jak i z opiniami, że program ten ukróci wreszcie kopiowanie prac, postanowiłem go przetestować.

Program ten jest typowym systemem stosowanym w administracji państwowej - jego kod jest zamknięty, nie wiadomo dokładnie jak działa, ale trzeba za niego płacić. No i oczywiście wszyscy zapewniają, że jest świetny i cudowny - nawet jeśli nie wykrywa wszystkich plagiatów, to skutecznie straszy studentów. Od czasu jego wdrożenia spotkałem się z wieloma artykułami pochwalnymi i ani jednym negatywnym.

Po przetestowaniu okazało się, że "Plagiat.pl" jest niezwykle dziurawy - jego stosowanie wprowadza tylko fałszywe przekonanie o tym, że zapobiega się plagiatom. Może być też potraktowane jako dyskryminacja studentów o mniejszej znajomości komputerów, bo tylko tacy zostaną nim wykryci. W świetle przedstawionych poniżej luk wątpliwa jest celowość płacenia przez uczelnie za korzystanie z tego programu. Jego skuteczność to czysty "security theater" - pewnie jakby go zastąpiono o wiele surowiej nazywającym się programem "Ostateczny Wykrywacz Wszystkich Przekrętów wer. 5.17b +turbo" (który robi tylko "ping"), efekty byłyby jeszcze lepsze.

Na stronie internetowej producenta programu można za darmo założyć sobie konto i przetestować tekst do objętości 1000 znaków. Do celów porównawczych użyłem preambuły Konstytucji - tekst jest powszechnie znany i powinien być wykrywany jako plagiat. Pierwsza próba wykazała już pewną niedoróbkę programistów "Plagiatu.pl", ponieważ tekst w 100% nieoryginalny otrzymał współczynnik podobieństwa 98,3%, co pokazuje możliwy margines błędu.
Image Hosting at ImageHosting.com

Aby oszukać system i osiągnąć współczynnik podobieństwa 0% dla tego samego tekstu wystarczyło podmienić litery: a, c, e, i, j, o, p na ich graficzne odpowiedniki w cyrylicy. Optycznie wyglądają one identycznie, tak więc osoba czytająca tekst ich nie zauważy. Są zamieszczane w najpopularniejszych czcionkach, więc wyświetlą się tak samo na każdym komputerze. Natomiast program "Plagiat.pl" rozumie je zupełnie inaczej, więc nie wykrywa żadnych fraz skopiowanych z Internetu. Sama podmiana przy użyciu funkcji "znajdź i zastąp" zajęła mi niecałą minutę, można z łatwością napisać makro, które zrobi to jeszcze szybciej. Ciekawe ile osób z zeszłych lat już wpadło na taki pomysł...
Image Hosting at ImageHosting.com

Z ciekawości sprawdziłem jeszcze, czy wykryte zostanie zastąpienie wszystkich spacji w tekście przez spacje niełamliwe (znak o kodzie U+00A0). Znowu okazało się, że nie. Na tej samej zasadzie prawdopodobnie można jeszcze podmieniać albo dostawiać inne znaki, które są niewidoczne dla czytelnika oraz nie zostają wykryte przez system - nie chciałem już tego sprawdzać, aby nie nadużywać darmowego konta.
Image Hosting at ImageHosting.com

Jeśli "Plagiat.pl" stosowany na uczelniach przyjmuje do analizy bezpośrednio dokumenty np. w formacie *.doc, możliwych jest jeszcze więcej oszustw, które stają się oczywiste dopiero przy skopiowaniu tekstu do okienka na stronie www, a w "taśmowym" przetwarzaniu mogą ujść niezauważone.

Zestawienie wyników:
Image Hosting at ImageHosting.com

Moim zdaniem istnienie tak poważnych niedoróbek w szeroko stosowanym systemie antyplagiatowym powinno być szerzej znane choćby dlatego, by promotorzy nie polegali wyłącznie na tym programie przy sprawdzaniu oryginalności prac. Może jeśli trywialne sposoby obchodzenia tego systemu zostaną opublikowane tutaj, uczelnie zastanowią się zanim zapłacą za taki produkt. Albo, co dopiero byłoby ciekawe - błędy zostaną naprawione i prace już w bazie danych zostaną sprawdzone ponownie...

Grzegorz Borek



Aktualizacja


Oto oryginalne raporty z programu Plagiat.pl: