corpul național britanic | |
---|---|
URL | www.natcorp.ox.ac.uk |
Tipul site-ului | Literatura stiintifica |
limbi) | engleza britanică |
Locația serverului | |
Autor | Oxford University Press , Longman , W. & R. Chambers |
Începutul lucrării | 1994 |
British National Corpus ( BNC ) este un corpus de 100 de milioane de cuvinte de engleză britanică scrisă și vorbită dintr -o gamă largă de surse [1] [2] [3] . Corpusul acoperă engleza britanică de la sfârșitul secolului al XX-lea, reprezentată de o mare varietate de genuri și se dorește a fi reprezentativ pentru engleza britanică tipică vorbită și scrisă a vremii.
Trei editori ( Oxford University Press ca colaborator principal și Longman și W. & R. Chambers ), două universități ( Oxford și Lancaster ) și British Library [2] au colaborat la proiectul de creare a BNC .
Crearea BNC a început în 1991 sub conducerea consorțiului BNC și a fost finalizată până în 1994. După 1994, nu au fost adăugate exemple noi, dar BNC a suferit modificări minore înainte de lansarea celui de-al doilea (BNC World, 2001) și al treilea (BNC). Ediția XML, 2007) ediții [4] .
În viziunea lingviștilor computaționali , BNC trebuia să fie un corpus modern, la momentul compilației, care se desfășoară în limbajul din viața reală , fie că este vorbit sau scris . Ca urmare, BNC a fost compilat într-o formă ușor de utilizat pentru a permite căutarea și procesarea automată prin metode de lingvistică a corpusului . Una dintre diferențele dintre BNC și corpurile existente la acea vreme a fost deschiderea datelor pentru utilizare nu numai în cercetarea științifică, ci și în scopuri comerciale și educaționale [3] .
Creatorii au limitat corpus doar la engleza britanică , fără a intenționa să includă exemple de utilizare a englezei mondiale . Acest lucru s-a făcut în parte pentru că o parte semnificativă a costului proiectului a fost plătită de guvernul britanic, care era în mod natural interesat să susțină documentarea diversității lingvistice a țării sale [3] .
Construirea unui corpus de dimensiune fără precedent a BNC a necesitat finanțare atât din partea instituțiilor comerciale, cât și a celor academice. La rândul lor, datele BNC au devenit ulterior disponibile pentru uz comercial și cercetare științifică [3] .
BNC este un corpus monolingv , deoarece conține doar mostre de engleză britanică, deși uneori cuvinte și expresii din alte limbi apar în texte. Acesta este un corpus sincron, deoarece conține exemple de utilizare a limbii pentru o singură perioadă de timp - sfârșitul secolului al XX-lea. Din acest motiv, BNC nu poate servi drept sursă de date privind istoria dezvoltării englezei britanice [4] . Încă de la început, cei implicați în colectarea datelor scrise și-au propus să facă din BNC un corpus echilibrat și, în consecință, au căutat și au inclus date din diverse surse [3] .
90% din corpus constă în exemple de utilizare a limbajului scris . Aceste exemple au fost preluate din ziare regionale și naționale, reviste științifice și periodice din diverse domenii științifice, ficțiune și jurnalism , atât din materiale publicate, cât și din materiale nepublicate (cum ar fi broșuri, scrisori, eseuri ale studenților, scenarii, discursuri), precum și din multe alte surse [5] .
Corpus conversaționalRestul de 10% din materialul BNC sunt modele de utilizare a limbii vorbite care au fost prezentate și înregistrate folosind transcripția practică .
Corpusul conversațional este format din două părți. Partea demografică conține o transcriere a conversațiilor spontane care au avut loc în condiții reale, cu participarea voluntarilor din diferite grupe de vârstă, regiuni și pături sociale. Aceste conversații au avut loc într-o varietate de situații, inclusiv întâlniri de afaceri sau guvernamentale și discuții la emisiuni radio sau la telefon [5] . Acest lucru a fost făcut pentru a lua în considerare atât distribuția demografică a limbii vorbite, cât și diversitatea semnificativă lingvistic a limbii datorită contextului [6] .
A doua parte a corpusului colocvial include mostre sensibile la context, cum ar fi transcripții ale înregistrărilor pregătite în timpul întâlnirilor sau evenimentelor speciale.
Toate înregistrările originale transcrise pentru a fi incluse în BNC au fost plasate în Arhiva de sunet British Library . Cele mai multe dintre intrări sunt disponibile pe site-ul web al Laboratorului de Fonetică al Universității Oxford .
Pachetul BNC conține marcaje parțiale . Pentru a face acest lucru, la crearea carenei, a fost folosit sistemul de marcare CLAWS. Acest sistem a trecut printr-o serie de modificări înainte ca ultima să fie primită - CLAWS4, care a fost folosită în caz. Sistemul CLAWS1 s-a bazat pe un model Markov ascuns și a putut marca corect 96% până la 97% din orice text. Când treceți de la CLAWS1 la CLAWS2, nevoia de pregătire manuală a textului înainte de a începe procesul de marcare a dispărut. CLAWS4 include îmbunătățiri precum dezambiguizarea lexicală mai puternică și variația ortografiei. Lucrările ulterioare asupra sistemului de marcare s-au concentrat pe creșterea ratei de succes a marcajului automat și pe reducerea muncii manuale de pregătire a textelor înainte de a începe marcarea prin introducerea unui software suplimentar care să înlocuiască munca manuală [2] [7] .
Mai târziu, a fost adăugată marcaj pentru a indica ambiguitatea anumitor cuvinte și expresii. În același timp, în ciuda capacității CLAWS4 de a determina automat tipurile de vorbire și semnificațiile cuvintelor, nevoia de marcare manuală a rămas, deoarece alte limbi decât engleza nu sunt acceptate în CLAWS4 [8] [9] .
Două sub-corpuri (subseturi de date BNC) au fost lansate sub denumirile BNC Baby și BNC Sampler. Ambele subcorpuri pot fi obținute prin comandă de pe site-ul BNC [10] .
BNC Baby este un subcorpus al BNC care constă din patru seturi de mostre de câte un milion de cuvinte fiecare. Cuvintele din fiecare set corespund unei anumite categorii de gen . Un set de mostre conține transcripții ale conversațiilor, în timp ce celelalte trei seturi conțin mostre de texte scrise din non -ficțiune, ficțiune și ziare . În același timp, marcajul disponibil în BNC [11] este păstrat în subcorpus . Cea mai recentă (a treia) ediție a fost lansată în format XML [12] .
BNC Sampler este un sub-corp format din două părți. Prima parte conține date scrise, a doua parte conține vorbire colocvială. Fiecare parte conține un milion de cuvinte. BNC Sampler a fost folosit inițial pentru a îmbunătăți procesul de marcare BNC, ceea ce a dus în cele din urmă la publicarea BNC World. Pe parcursul proiectului, BNC Sampler s-a îmbunătățit pe măsură ce experiența și cunoștințele privind marcajul au crescut. Ca rezultat, a fost creat BNC Sampler pe care îl cunoaștem astăzi [13] .
Corpusul este marcat conform recomandărilor consorțiului Text Encoding Initiative (TEI) și include adnotări lingvistice complete și informații contextuale [14] .
Pentru a utiliza corpul instrumentului de marcare parțială CLAWS4, trebuie să achiziționați o licență [15] . Alternativ, puteți utiliza serviciul de marcare oferit de Universitatea Lancaster [16] .
BNC în sine poate fi achiziționat atât cu o licență personală, cât și cu o licență colectivă. Ediția BNC este disponibilă în format XML și vine cu software-ul motor de căutare Xaira . Pachetul poate fi comandat prin site-ul BNC [17] .
Pentru ediția XML a BNC, a fost dezvoltat un manager de corpus BNCweb și este disponibil online. Interfața sa este ușor de utilizat și suportă interogarea și analiza materialelor corpusului [18] .
BNC a fost primul corpus de dimensiunea sa disponibil unui public larg. Poate că acest lucru sa datorat formelor standard de acorduri între deținătorii de drepturi de autor și Consorțiu, pe de o parte, și între utilizatorii corpus și Consorțiu, pe de altă parte. Creatorii corpusului au încercat să încheie un acord de licență standard cu proprietarii drepturilor de proprietate intelectuală , una dintre prevederile căruia era includerea materialului în corpus fără plata unor taxe bănești. Un astfel de acord a fost facilitat de originalitatea și unicitatea cauzei [6] .
Cu toate acestea, s-a dovedit dificil să păstrăm anonimatul colaboratorilor fără a minimiza semnificația muncii lor. Orice aluzie opaca la identitatea autorului a fost eliminata din materialele corpus. Totodată, s-a luat în considerare și posibilitatea înlocuirii numelor reale cu alte nume pentru a păstra anonimatul, care însă a fost considerat nepotrivit [6] .
În plus, autorilor li s-a cerut inițial permisiunea pentru a include doar versiuni transcrise ale discursului lor, dar nu pentru a include discursul în sine. Deși o astfel de permisiune ar putea fi solicitată din nou, căutarea autorilor originali poate fi complicată de procesul de anonimizare în curs. În același timp, au devenit clari factorii care au agravat reticența deținătorilor de drepturi de autor de a-și dona materialele în corpus: textele integrale au fost excluse din corpus, ceea ce a condus la o lipsă de motivație a deținătorilor de drepturi de autor de a distribui informații prin corpus (mai ales datorită la baza sa necomercială) [6] .
Din 2001, BNC încă nu mai avea o clasificare a textelor scrise, altele decât pe sfere (ziare, ficțiune etc.), și o clasificare a textelor vorbite, altele decât după context și clasa demografică sau socioeconomică a participanților la conversație. De exemplu, o mare varietate de eșantioane de text fictiv ( romane , povestiri , poezii etc.) au fost incluse în corpus , dar informațiile despre subgenurile lor lipseau din antetele eșantionului și din documentația BNC. Astfel, pentru cercetători, cunoașterea diversității genurilor a fost practic inutilă, întrucât nu le-a fost ușor să obțină lucrări din subgenul dorit [19] .
În 2002, odată cu lansarea unei noi versiuni a corpusului - BNC World Edition, s-a încercat rezolvarea problemei de clasificare. Pe lângă sferele pentru texte vorbite și scrise, au fost identificate 70 de clase, care au permis cercetătorilor să extragă din corpus texte de un anumit gen [20] .
Cu toate acestea, chiar și după aceste inovații, implementarea clasificării are încă probleme, deoarece atribuirea unui gen sau subgen unui text este complicată de diverse subtilități. Împărțirea în clase pentru datele vorbite este mai puțin evidentă decât pentru datele scrise, datorită varietății mult mai mari de subiecte implicate în conversații. Există, de asemenea, probleme și ambiguități în ceea ce privește definirea unui subgen al oricărui gen, întrucât împărțirea în subgenuri în corpus a fost predeterminată în scopuri de standardizare [20] .
La crearea corpusului, unele texte au fost clasificate incorect, adesea din cauza titlurilor înșelătoare. De exemplu, multe texte cu cuvântul „prelecție” în titlu sunt de fapt discuții în clasă sau seminarii educaționale care implică grupuri mici de oameni, sau prelegeri populare destinate unui public larg (mai degrabă decât prelegeri pentru studenți ) [ 19] . Un motiv pentru clasificarea greșită este că genul și subgenul pot fi specificate pentru majoritatea textelor, dar nu pentru toate. În plus, textul pe întreaga sa lungime se poate referi la diferite subgenuri, poate intra sub definiția unor genuri diferite [20] .
Raportul dintre material scris și vorbit în BNC este 10:1 [6] . Acest lucru se datorează faptului că costul colectării, transcrierii și digitizării unui milion de cuvinte din vorbirea din lumea reală este de cel puțin 10 ori mai mare decât costul adăugării unui milion de cuvinte din ziare. Cu toate acestea, există o opinie că, deoarece vorbirea orală și cea scrisă sunt la fel de importante, acestea ar trebui prezentate în proporții egale în corpus [6] .
BNC nu este foarte util în studierea unor trăsături ale limbajului vorbit, deoarece în ea sunt incluse doar transcripții practice , iar trăsăturile paralingvistice ale comunicării sunt indicate foarte superficial [21] .
Relațiile dintre unele unități lexicale sunt prea ambigue pentru a fi descoperite eficient folosind interogări de căutare. Orice încercare de a căuta clauze atributive va oferi utilizatorului date eronate, oferind exemple de utilizare a pronumelor interogative și a cuvântului „că”. În plus, în general, nu este posibil să se identifice în mod programatic propoziții subordonate în care pronumele sunt omise (ca, de exemplu, în „omul pe care l-am văzut”). Din același motiv, este dificil de determinat utilizarea unor categorii semantice și pragmatice (îndoială, dezacord, recunoaștere) [21] .
Conform materialelor corpusului, este posibil să se stabilească dacă un discurs este rostit de un bărbat sau de o femeie, dar este imposibil să se afle din acestea dacă persoana care face discursul se adresează unui bărbat sau unei femei [21] .
BNC este un corpus foarte divers și mixt, deci nu este potrivit pentru studiul oricăror tipuri sau genuri de texte foarte specifice, deoarece un astfel de tip sau gen este probabil să fie extrem de limitat și textele de acest tip nu sunt ușor de găsit. în corpus. De exemplu, în BNC există foarte puține scrisori de afaceri sau ședințe guvernamentale înregistrate, așa că pentru a le studia specificul, este de dorit să se colecteze un corpus mai mic format doar din texte de acest tip [21] .
Există două modalități principale de utilizare a corpusului în predarea limbilor: crearea de materiale metodologice și învățarea prin analiză [21] .
Materiale didacticeEditorii și cercetătorii pot folosi mostrele din corpus pentru a crea recomandări de învățare a limbilor străine, programe de studiu și alte materiale didactice.
De exemplu, BNC a fost folosit de un grup de cercetători japonezi ca instrument în dezvoltarea unui sistem bazat pe web pentru învățarea limbii engleze în anumite domenii (afaceri, medicină) [22] . Sistemul a oferit studenților acces la cele mai frecvent utilizate șabloane de propoziții pentru a învăța din aceste exemple. Sursa unor astfel de propuneri în sistem a fost BNC (propunerile au fost însoțite de trimiteri la BNC pentru a dovedi realitatea aplicației).
Învățare prin analizăAnaliza corpus poate fi încorporată direct în metodele de predare a limbilor străine. În acest caz, studenții au posibilitatea de a clasifica în mod independent datele lingvistice ale corpusului și, prin urmare, să-și formeze o idee despre modelele și capacitățile limbii studiate pe baza acestei clasificări. Datele din corpusurile care sunt utilizate în această metodă de predare sunt relativ mici și, prin urmare, pot duce la o generalizare a ideilor despre limba studiată, ceea ce poate avea prea puțin de-a face cu starea reală a lucrurilor [21] .
DiverseBNC poate fi folosit ca sursă de referințe atunci când se creează și se analizează texte, de exemplu, când se studiază utilizarea cuvintelor individuale în contexte diferite. Acest lucru vă permite să vă familiarizați cu diferite moduri de a folosi aceleași cuvinte [21] .
Pe lângă informațiile legate de limbă, BNC poate servi și ca sursă de date enciclopedice, cum ar fi cultura britanică și stereotipurile populare în Marea Britanie [21] .
În India, în 2012, peste 12.000 de cuvinte și expresii de la BNC au fost folosite pentru a dezvolta 22 de dicționare de traducere din limbile locale în engleză. Dezvoltarea a fost realizată ca parte a mișcării de reformare a sistemului de învățământ și de păstrare a limbilor popoarelor mici din India [23] .
BNC, datorită dimensiunii sale, este excelent pentru utilizare ca material pentru testarea software-ului [24] . De exemplu, a fost folosit la testarea specificațiilor limbajului de marcare ale Text Encoding Initiative (TEI). În plus, 20 de milioane de cuvinte de la BNC au fost folosite pentru a evalua sistemul de atribuire a subcategoriilor în proiectul de analiză a sensului cuvântului Senseval [25] .
Un studiu din 2000 al lui Hofmann și Lehmann care a analizat mecanismele care permit oamenilor să se ocupe în mod liber de uriașul lor set de colocații . În special, au fost studiate două mecanisme, dintre care unul permite colocărilor să fie întotdeauna gata de utilizare, iar celălalt permite oamenilor să extindă cu ușurință alocațiile gramatical sau sintactic pentru a se adapta la o situație specifică. În aceste scopuri, din BNC au fost extrase combinații rare de cuvinte [26] .
Un studiu din 2002 al lui Fernandez și Ginzburg, care a examinat dialoguri pline cu enunțuri care se terminau doar intuitiv și nu transportau informații în afara contextului. Practic, acestea sunt răspunsuri scurte tipice la întrebări. Pe parcursul studiului, fragmente de date BNC au fost folosite pentru a compila o clasificare completă și teoretică solidă a unor astfel de declarații [27] .
Procesarea limbajului naturalBNC este utilizat pe scară largă în munca în domeniul prelucrării morfologice (o ramură a procesării limbajului natural ). În special, datele de la BNC sunt folosite pentru a testa acuratețea, fiabilitatea și viteza instrumentelor de procesare a markerului morfologic în engleza britanică [28] . În plus, datele de la BNC au fost folosite pentru a crea un depozit extins de informații despre markerii morfologici în limba engleză [28] .
În general, este acceptat în rândul lingviștilor de calcul și corpus că BNC este o realizare remarcabilă, un corpus de dimensiuni enorme. Datorită eforturilor uriașe de a colecta și procesa în continuare o cantitate mare de date, BNC a devenit unul dintre cele mai valoroase corpuri. BNC este considerat a fi un corpus model din care sunt dezvoltate corpuri ulterioare (de exemplu , corpus naționale americane , cehe și poloneze ) [29] [30] .
În iulie 2014, BNC a fost anunțat de Cambridge University Press și Center for Corpus Approach to the Social Sciences de la Universitatea Lancaster că se lucrează pentru a crea un nou British National Corpus [31] . Prima etapă a proiectului comun al acestor două instituții a fost compilarea unui nou corpus colocvial de engleză britanică de la începutul până la mijlocul anilor 2010 [32] .
Lingvistica corpusului | |
---|---|
corpuri engleze |
|
Corpuri în limba rusă |
|
Corpora în alte limbi |
|
Organizații |