Detectarea plagiatului

Analiza plagiatului (definiția plagiatului, detectarea plagiatului) sunt metode computerizate de căutare și depistare a plagiatului [1] .

Plagiatul ( în engleză  plagiat ) este folosirea, parafrazarea și rezumarea lucrării sub orice formă, fără confirmare prin trimiteri la surse și prezentarea acesteia ca fiind o lucrare proprie [2] .

Plagiatul  este împrumutul operei altcuiva, intenționat sau neintenționat, de parcă ar fi propria, în folosul propriu [3] .

În prezent, există un număr destul de mare de servicii și programe care vă permit să detectați cumva plagiatul . Există, de asemenea, o serie de metode de detectare a plagiatului bazate pe computer .

Problema plagiatului

Plagiatul a devenit o problemă serioasă odată cu apariția Internetului . Odată ajunse pe internet, cunoștințele devin proprietatea tuturor, devine din ce în ce mai dificilă și chiar imposibilă respectarea drepturilor de autor [4] . Devine treptat mai dificil să identifici autorul original.

Dezvoltarea rapidă a Internetului, împreună cu creșterea alfabetizării informatice, contribuie la pătrunderea plagiatului în diverse domenii ale activității umane: plagiatul este o problemă acută în educație, industrie și comunitatea științifică [5] .

Plagiatul este o crimă. Acest lucru induce în eroare cititorii, dăunează autorului și oferă beneficii nemeritate plagiatorului [6] .

Acces larg la literatura internă și străină, creșterea multiplă a numărului de publicații profesionale, publicații pe internet - toate acestea practic anulează orice aspirație editorială de a „verifica” sau „a stabili” autenticitatea și originalitatea argumentelor și faptelor folosite în manuscrise propuse spre publicare [7] .

Metode de detectare a plagiatului

Ilustrația prezintă clasificarea metodelor de detectare a plagiatului computerizat din punct de vedere tehnic.

Metodele sunt caracterizate de tipul de evaluare a similarității.

Scorul global folosește porțiuni mari de text sau un document pentru a găsi similitudinea generală, în timp ce metodele locale de introducere verifică un segment limitat de text.

În prezent, cea mai comună abordare este amprentarea :

Dintr-un număr de documente, este selectat un set de mai multe subșiruri, care sunt „amprentele digitale”. Documentul în cauză va fi comparat cu amprentele digitale pentru toate documentele din colecție. Potrivirile găsite cu alte documente indică segmente comune ale textului [8] .

Verificarea unui document cu suprapunere text literal este o comparație clasică de șiruri.

Scanarea documentelor suspecte în această situație necesită calcularea și stocarea efectivă a reprezentărilor comparabile ale tuturor documentelor din colecția de referință, care sunt comparate în perechi. În mod obișnuit, sunt utilizate modele precum arborele de sufixe sau matrice de sufixe care au fost adaptate pentru a îndeplini această sarcină în contextul detectării plagiatului computerizat. Totuși , potrivirea subșirurilor nu este o soluție viabilă pentru verificarea colecțiilor mari de documente (algoritmul realizează o medie de comparații de 2h, unde h este lungimea șirului căutat) [9] .

Analiza „multe cuvinte”este o simplificare a reprezentării utilizate în procesarea limbajului natural și regăsirea informațiilor. În acest model, textul este reprezentat ca un set neordonat de cuvinte. Documentele sunt reprezentate ca unul sau mai mulți vectori, care sunt utilizați pentru calculul similarității pe perechi [10] [11] [12] .

Citarea  este o metodă computerizată de detectare a plagiatului concepută pentru a fi utilizată în lucrări științifice, permițând utilizarea citărilor și a materialelor de referință. Identifică citările comune pentru două lucrări științifice.

Un model de citare este o subsecvență care conține nu numai citări comune pentru două documente, ci și ordine similară și asemănarea citărilor din text, care sunt principalele criterii pentru determinarea unui model de citare [13] [14] [15] [16] .

Stilometria , sau studiul stilurilor de limbaj  , este o metodă statistică pentru identificarea paternității documentelor anonime și pentru verificări computerizate pentru plagiat.

Modelele stilometrice sunt construite pentru diverse fragmente de text , pasaje care sunt diferite stilistic de altele. Iar prin compararea modelelor se poate detecta plagiatul [17] .

De exemplu, analiza bazată pe secvențe de părți de vorbire . Se are în vedere o metodă de împărțire a textului în fragmente de omogenitate. Diverse secvențe de părți de vorbire sunt luate ca parametri de partiționare. Următorul pas este analizarea fragmentelor. Și ca urmare, pentru text, se găsesc secvențe care extrag fragmente din texte, adică algoritmul selectează fragmente de eterogenitate din text care au frecvențe diferite de apariție a secvenței selectate de părți de vorbire, ceea ce indică o posibilă plagiat în acest loc [18] .

Prezentare generală a sistemelor existente

În prezent, există un număr destul de mare de servicii și programe care vă permit să identificați cumva împrumuturile. [19] Printre acestea se numără: sistemul Antiplagiat , Advego Plagiatus, Unplag , miratools.ru, istio.com, Praide Unique Content Analyzer II, Plagiatinform, Copyscape .

Sistem antiplagiat

Sistemul a fost dezvoltat de Forexis [20] . Sistemul efectuează o căutare online printr-un număr mare de documente stocate în propria bază de date a sistemului, prin bazele de date partenere, printre care: Biblioteca de Stat Rusă, Biblioteca Științifică Electronică ELibrary.ru, Lexpro, precum și prin baza de date a utilizatorului. „Anti-plagiatul” caută pe Internet folosind propriile mijloace și, prin urmare, este mai puțin eficient decât sistemele care folosesc Yandex. xml. În versiunea gratuită a sistemului, este disponibilă doar o formă abreviată a raportului.

Programul Advego Plagiatus

Programul realizează verificarea online folosind motoarele de căutare [21] . Spre deosebire de sisteme similare, Advego Plagiatus nu folosește Yandex.XML (un serviciu gratuit care vă permite să faceți interogări de căutare automate pentru Yandex și să publicați rezultatele sale pe resursa dvs.).

Programul oferă procentul de potrivire a textului și afișează sursele găsite. Programul nu convertește literele, adică nu există nicio conversie de majuscule , nicio prelucrare și schimbare a literelor latine din cuvintele rusești în litere similare ale alfabetului rus pentru textele în limba rusă.

De asemenea, nu există suport pentru căutarea în propria bază de date; datorita naturii lucrarii apar situatii cand rezultatele verificarii difera din cand in cand.

Unplag serviciu

Serviciul de verificare a plagiatului Unplag [22] poate verifica dacă există plagiat atât în ​​timp real online, cât și poate compara documentul cu baza de date a documentelor salvate în biblioteca utilizatorului. Sprijină lucrul cu diferite tipuri de documente. Există programe personale și corporative. Funcționează și cu sistemul de management al cursurilor Moodle , Canvas, Blackboard, Sakai .

Serviciul www.miratools.ru

Serviciul vă permite să verificați textul pentru plagiat online [23] . Sistemul folosește rezultatele emiterii motoarelor de căutare. Este posibil să înlocuiți literele engleze cu cele rusești. De asemenea, este posibilă modificarea lungimii și pasului șindrila utilizată pentru verificare. Pe baza rezultatelor verificării, se indică procentul de potriviri și sursele găsite. Sistemul nu funcționează cu propria bază de date, există o limită a lungimii textului de 3000 de caractere și o limită a numărului de verificări pe zi.

Serviciu www.istio.com

Serviciul verifică textul pentru prezența conținutului împrumutat folosind motoarele de căutare Yandex.XML și Yahoo.com. [24] . Pe baza rezultatelor verificării, este afișat un mesaj care indică dacă textul este unic sau nu și este afișată o listă de pagini similare de site. Serviciul oferă instrumente suplimentare pentru analiza textului, cum ar fi verificarea ortografică, analiza celor mai frecvente cuvinte etc. Sistemul nu are conversie de litere și căutare în propria bază de date.

Praide Unique Content Analyzer II

Programul verifică textele folosind motoarele de căutare [25] . Este posibil să selectați motoarele de căutare utilizate, conține mijloacele de adăugare a unor noi motoare de căutare. Verificarea se efectuează cu șindrila, a cărei lungime poate fi schimbată. Puteți seta numărul de cuvinte care se suprapun șindrilă. Este afișat un raport detaliat despre verificare în fiecare motor de căutare. Programul nu înlocuiește literele, procesează cuvinte stop și nu acceptă lucrul cu propria sa bază de date.

Sistemul plagiatinform

Sistemul verifică documentele pentru împrumuturi atât în ​​baza de date locală, cât și pe Internet [26] . Sistemul este capabil să detecteze plagiatul sub formă de documente compuse din bucăți de text „mixte” din mai multe surse. Verificarea se poate face folosind căutarea rapidă sau profundă. Rezultatele testelor sunt prezentate sub forma unui raport vizual. Nu există conversie de litere. Nu există nicio posibilitate de utilizare gratuită sau testare a sistemului.

Serviciul Copyscape

Sistemul Copyscape vă permite să căutați copii ale paginilor web pe Internet [27] . Sistemul returnează o listă de pagini web care au text similar în conținut. Serviciul verifică conținutul împrumutat folosind Google și Yahoo!

Se verifică doar conținutul paginii web, adică pentru a determina unicitatea textului, este necesară publicarea textului pe site și introducerea adresei paginii în sistem. Fără înregistrare, există o limită a numărului de verificări pe lună și a numărului de rezultate afișate - 10 site-uri. Pentru utilizatorii înregistrați, nu există limite privind numărul de verificări și rezultatele rezultate, dar fiecare cerere costă 5 cenți.

Concurs de plagiat

Detectarea plagiatului (în special parafrazată) este o problemă inginerească și științifică studiată activ. Concursuri pentru detectarea automată a plagiatului sunt organizate în mod regulat sub auspiciile inițiativei PAN [28] . Prima competiție de identificare a plagiatului în documentele în limba rusă a avut loc în 2017, ca parte a conferinței Dialogue privind lingvistica computațională [29] .

Vezi și

Note

  1. Stein, Koppel, 2011 .
  2. ACT BSSS, 2011 .
  3. Johnston, 2008 .
  4. Aushra, 2006 .
  5. Diaghilev, Tskhai, Butakov, 2011 , pp. 23.
  6. Bouville, 2008 , pp. 331.
  7. Ushakin, 2001 .
  8. Brin, Davis, Garcia-Molina, 2001 , pp. 36-41.
  9. Monostori, Zaslavsky, Schmidt, 2000 , pp. 226–227.
  10. Leong, Lau, Rynson, 1997 , pp. 70-77.
  11. Dreher, 2007 , pp. 601-614.
  12. Muhr, Zechner, 2009 , pp. 47-55.
  13. Gipp, Beel, 2009 , pp. 571–575.
  14. Gipp, Beel, 2010 , pp. 273–274.
  15. Gipp, Meuschke, Beel, 2011 , pp. 255–258.
  16. Gipp, Meuschke, 2011 , pp. 249–258.
  17. Meyer zu Eissen, Stein, 2006 , pp. 565–569.
  18. Sedov, Rogov, 2013 .
  19. Şarapov, Şarapova, 2011 .
  20. antiplagiat.ru - Anti-plagiat Copie arhivată din 13 octombrie 2012 pe Wayback Machine
  21. advego.ru - verificarea unicității textului . Consultat la 9 decembrie 2012. Arhivat din original pe 11 decembrie 2012.
  22. Verificatorul de plagiat Unplag vă oferă  raportări în timp real . unplag.com. Preluat la 21 iulie 2016. Arhivat din original la 14 iulie 2016.
  23. miratools.ru - Serviciu de verificare a unicității conținutului Arhivat 9 decembrie 2012 pe Wayback Machine
  24. istio.com - Serviciu de analiză de texte și site-uri . Consultat la 9 decembrie 2012. Arhivat din original pe 9 decembrie 2012.
  25. Analizor de conținut unic Praide - Verificarea unicității textului pe Internet (downlink) . Data accesului: 9 decembrie 2012. Arhivat din original pe 20 noiembrie 2012. 
  26. plagiatinform.ru - Sistem pentru detectarea plagiatului în documente Arhivat 29 iulie 2012 la Wayback Machine
  27. copyscape.com - Verificatorul de plagiat Copyscape . Consultat la 9 decembrie 2012. Arhivat din original pe 8 decembrie 2012.
  28. PAN este o serie de evenimente științifice și sarcini partajate privind criminalistica digitală a textului (downlink) . Consultat la 5 septembrie 2017. Arhivat din original la 15 septembrie 2017. 
  29. Concurs pentru găsirea de împrumuturi în texte rusești . Consultat la 5 septembrie 2017. Arhivat din original pe 5 septembrie 2017.

Literatură

in rusa în alte limbi