Wikționar | |
---|---|
Engleză Wikționar | |
URL | wiktionary.org |
Comercial | Nu |
Tip site | Dicţionar de reţea |
Înregistrare | Opțional |
limbi) | 170 |
Locația serverului | Miami |
Proprietar | Fundația Wikimedia |
Autor | Jimmy Wales |
Începutul lucrării | 12 decembrie 2002 |
Fișiere media la Wikimedia Commons |
Wiktionary este un dicționar multilingv multifuncțional actualizat gratuit și un tezaur bazat pe un motor wiki . Unul dintre proiectele Fundației Wikimedia . A apărut inițial în engleză pe 12 decembrie 2002 .
Dicționarul conține descrieri gramaticale , interpretări și traduceri ale cuvintelor. În plus, articolele pot reflecta informații despre etimologia , proprietățile fonetice și relațiile semantice ale cuvintelor. Astfel, Wiktionary este o încercare de a combina dicționare gramaticale , explicative , etimologice și multilingve, precum și un tezaur, într-un singur produs.
Datele din Wikționar sunt utilizate în mod activ în rezolvarea diferitelor probleme legate de prelucrarea automată a textului și a vorbirii .
Prin interrelația dintre diferitele secțiuni lingvistice ale Wikționarului și între contributorii la vocabularul Fundației Wikimedia și alte proiecte , colaboratorii la fiecare proiect pot folosi conceptele, instrumentele și materialele lexicografice create de colegii lor vorbitori de alte limbi. În cursul lucrărilor la diferite secțiuni lingvistice ale dicționarului, s-a format un concept complex de resursă lexicografică universală, care a devenit posibil pentru prima dată datorită tehnologiilor electronice. Conceptul presupune în cele din urmă o descriere completă și cuprinzătoare a tuturor unităților lexicale ale tuturor limbilor naturale (și artificiale de bază) care au o limbă scrisă. Completitudinea descrierii înseamnă disponibilitatea informațiilor despre fonetica, morfologia, proprietățile sintactice și semantice ale unității lexicale, etimologia, compatibilitatea și frazeologia acesteia. Completitudinea și gradul de coerență în implementarea acestui concept pot varia în diferitele secțiuni lingvistice ale proiectului.
În fiecare secțiune de limbă, limba „titulară” este centrală - toate articolele sunt scrise exclusiv în ea, în plus, scopul este de a oferi traduceri de cuvinte și alte unități ale acestei limbi în numărul maxim posibil de alte limbi. Cuvintele altor limbi sunt traduse, de regulă, numai în această limbă „titulară”. Deci, în Wikționarul rus pentru cuvintele rusești, se oferă interpretări și traduceri în limbi străine, pentru cuvintele străine, în loc de interpretări, se oferă traduceri în rusă .
Când se descrie morfologia, se încearcă să ofere cea mai completă imagine a inflexiunii, inclusiv o indicație a clasei de inflexiune. În special, informațiile morfologice despre lexemele rusești sunt date în conformitate cu clasificarea propusă de A. A. Zaliznyak .
Pentru a completa Wiktionarul, a fost creată o bibliografie extinsă , iar Wiktionarul englezesc a dezvoltat reguli pentru includerea unui termen în dicționar (vezi Criteriile de includere ). Spre deosebire de Wikipedia rusă , unde în selecția materialului se acordă prioritate surselor autorizate [Nota 1] , în Wikționarul rusesc, prevalează analiza utilizării cuvintelor efectuată de editorul articolului [Nota 2] .
Wikționarul conține următoarele relații semantice: sinonime , antonime , hipernime , hiponime , cohiponime , holonime , meronime , paronime .
Wikționarul nu include descrieri detaliate ale faptelor și informații enciclopedice. Cu toate acestea, Wikționarul oferă informații unice care nu se găsesc pe Wikipedia: colocări, proverbe, abrevieri, acronime, descrieri ale erorilor de ortografie, ortografii/pronunțări simplificate/corupte ale cuvintelor, cazuri de utilizare controversate, protologisme , onomatopee , stiluri diferite (de exemplu, colocvial) și subiect zone [1] . Astfel, Wikipedia și Wikționar se completează reciproc.
Wiktionary este similar cu Wikipedia prin faptul că (1) există legături interne către intrări despre cuvinte din Wiktionary, (2) există categorii, (3) există interwiki -uri care leagă la intrări despre același cuvânt într-un dicționar de limbă străină [1] .
Secțiunea rusă a Wikționarului a fost creată în primăvara anului 2004 . Timp de un an și jumătate, practic nu s-a dezvoltat, reumplendu-se la întâmplare, în principal cu material de calitate scăzută. Situaţia a început să se schimbe la sfârşitul anului 2005 - începutul lui 2006 .
În 2006, a fost numit primul administrator al Schwallex , volumul articolelor a crescut de aproape patru ori față de anul precedent, au fost create instrumente puternice de descriere a morfologiei și a început să se contureze un sistem dezvoltat de categorii semantice.
Până în toamna lui 2006, numărul de intrări în Wiktionarul rus ajunsese la 10.000; apoi, datorită creării unui bot care folosește dicționare din alte secțiuni ale Wikționarului pentru a genera articole goale în secțiunea rusă, într-o lună și jumătate au fost adăugate încă aproximativ 70.000 de articole. Pe 7 noiembrie 2006, Wiktionary a depășit pragul de 80.000, iar pe 10 decembrie 2006, a fost luat pragul de 100.000 de intrări. Pe 17 decembrie 2018, numărul articolelor a depășit 1.000.000. Numărul participanților activi a fost de aproximativ 230.
Spre deosebire de situația cu dicționarele tradiționale, completitudinea Wikționarului nu poate fi evaluată în mod adecvat printr-un indicator formal al numărului de intrări. Contorul automat nu face distincție între discuri pe jumătate goale și articole cu adevărat informative, în plus, nu ține cont de omonimia intralingvistică și interlingvă. De exemplu, intrarea din dicționar bor este listată ca o singură intrare, între timp, acest articol descrie mai multe lexeme omonime ale limbii ruse, precum și lexeme cu același nume în alte limbi (bulgară, tătără), - în dicționarele tradiționale acest lucru materialul ar fi aranjat şi luat în considerare sub forma mai multor intrări .
Începând din august 2008, Wikționarul rus s-a clasat pe primul loc în ceea ce privește dimensiunea bazei de date printre toate Wikționarele [3] . În același timp, numărul de intrări în Wikționarul rus nu este cel mai mare [4] . Acest lucru se datorează parțial faptului că pentru proiectele care au mai multe articole decât în Wikționarul rus, articolele pot avea o dimensiune medie de o dimensiune mai mică, așa cum se poate vedea pe site-ul de statistici [5] .
În plus, Wikționarul rus, în comparație cu alte secțiuni ale Wikționarului, conține o cantitate mai mare de informații auxiliare, inclusiv tabele de căutare, liste de cuvinte frecvente etc. (spre deosebire de intrările din dicționar care formează așa-numitul spațiu de nume principal, astfel de informații sunt plasate în secțiunile ”, „Indici”, etc.). Un număr semnificativ de intrări în Wikționarul rus sunt încă spații goale generate de roboți. Deși uneori se poate întâlni critici la adresa unui număr mare de articole goale, o astfel de pre-markup are multe avantaje. În primul rând, ajută la crearea mai rapidă a articolelor prin pre-includerea unor informații, cum ar fi partea de vorbire a cuvântului care este descris. În al doilea rând, structura articolelor este în curs de standardizare. Datorită utilizării pe scară largă a șabloanelor (care sunt de obicei eliminate imediat de roboți când creează automat articole), devine posibilă schimbarea centrală a aspectului multor articole simultan. Prezența unui număr mare de șabloane ajută, de asemenea, la editarea automată ulterioară a articolelor deja create - de exemplu, așezați automat traducerea conform dicționarelor pregătite în prealabil (deoarece este mai ușor pentru roboți să navigheze în structura unui articol deja marcat cu structuri specializate, mai degrabă decât limbajul uman). O trăsătură distinctivă a Wikționarului rus este un concept bine dezvoltat de dezvoltare (care poate fi găsit pe pagina principală). Datorită conceptului bine dezvoltat și utilizării pe scară largă a șabloanelor, articolele din Wikționarul rus arată mai mult de același tip decât în multe alte proiecte (numărul de secțiuni, ordinea în care apar, designul fiecărei secțiuni sunt, în principiu, la fel).
Autorii au calculat numărul de intrări din dicționar despre cuvintele rusești, numărul de intrări cu și fără interpretări în două Wikționare (ilustrate). Politica editorilor Wiktionarului englez (de a nu crea articole goale) a fost confirmată: există doar 5,57% dintre intrările din dicționar despre cuvintele rusești fără interpretare. În Wikționarul rus există 60,39% dintre astfel de articole. Cu toate acestea, în Wikționarul rus (din 2011) există de aproape 3,4 ori mai multe intrări cu interpretări pentru cuvintele rusești decât în Wikționarul englez: 53,6 mii față de 15,7 mii [2] .
Pentru a utiliza datele lexicografice din Wikționar în rezolvarea problemelor de procesare automată a textului și a vorbirii, este necesar să convertiți textele intrărilor din dicționar ( date semi-structurate [6] ) într-un format care poate fi citit de mașină [7] [8] [9] .
Extragerea datelor din wiktionare nu este o sarcină ușoară. Următoarele dificultăți pot fi identificate [10] : (1) modificări regulate și frecvente atât în datele, cât și în structura însăși a articolelor, (2) diferite wikționare au o structură și un format diferit de articole [Nota 3] , (3) tehnologia wiki se concentrează inițial pe ușurința de utilizare, nu făcută de mașini.
Există mai multe analizoare pentru diferite Wikționare [11] :
Wiktionarele sunt folosite pentru a rezolva diverse sarcini legate de procesarea textului și a vorbirii [19] :
Articolele Wikipedia trebuie să se bazeze pe surse autorizate publicate .
Dacă există dezacorduri cu privire la oricare dintre proprietățile descrise ale oricărei unități lingvistice, se acordă prioritate (în termeni de dovezi) surselor corpus.
![]() | |
---|---|
Dicționare și enciclopedii |
Fundația Wikimedia | ||||||
---|---|---|---|---|---|---|
oameni |
| |||||
Proiecte |
| |||||
Alte |
| |||||
Legate de |
|