Corpul național britanic

corpul național britanic
URL www.natcorp.ox.ac.uk
Tipul site-ului Literatura stiintifica
limbi) engleza britanică
Locația serverului
Autor Oxford University Press , Longman , W. & R. Chambers
Începutul lucrării 1994

British National Corpus ( BNC ) este un corpus de 100 de milioane de cuvinte de engleză britanică scrisă și vorbită dintr -o gamă largă de surse [1] [2] [3] . Corpusul acoperă engleza britanică de la sfârșitul secolului al XX-lea, reprezentată de o mare varietate de genuri și se dorește a fi reprezentativ pentru engleza britanică tipică vorbită și scrisă a vremii.  

Istorie

Trei editori ( Oxford University Press ca colaborator principal și Longman și W. & R. Chambers ), două universități ( Oxford și Lancaster ) și British Library [2] au colaborat la proiectul de creare a BNC .

Crearea BNC a început în 1991 sub conducerea consorțiului BNC și a fost finalizată până în 1994. După 1994, nu au fost adăugate exemple noi, dar BNC a suferit modificări minore înainte de lansarea celui de-al doilea (BNC World, 2001) și al treilea (BNC). Ediția XML, 2007) ediții [4] .

Fundal

În viziunea lingviștilor computaționali , BNC trebuia să fie un corpus modern, la momentul compilației, care se desfășoară în limbajul din viața reală , fie că este vorbit sau scris . Ca urmare, BNC a fost compilat într-o formă ușor de utilizat pentru a permite căutarea și procesarea automată prin metode de lingvistică a corpusului . Una dintre diferențele dintre BNC și corpurile existente la acea vreme a fost deschiderea datelor pentru utilizare nu numai în cercetarea științifică, ci și în scopuri comerciale și educaționale [3] .

Creatorii au limitat corpus doar la engleza britanică , fără a intenționa să includă exemple de utilizare a englezei mondiale . Acest lucru s-a făcut în parte pentru că o parte semnificativă a costului proiectului a fost plătită de guvernul britanic, care era în mod natural interesat să susțină documentarea diversității lingvistice a țării sale [3] .

Construirea unui corpus de dimensiune fără precedent a BNC a necesitat finanțare atât din partea instituțiilor comerciale, cât și a celor academice. La rândul lor, datele BNC au devenit ulterior disponibile pentru uz comercial și cercetare științifică [3] .

Descriere

BNC este un corpus monolingv , deoarece conține doar mostre de engleză britanică, deși uneori cuvinte și expresii din alte limbi apar în texte. Acesta este un corpus sincron, deoarece conține exemple de utilizare a limbii pentru o singură perioadă de timp - sfârșitul secolului al XX-lea. Din acest motiv, BNC nu poate servi drept sursă de date privind istoria dezvoltării englezei britanice [4] . Încă de la început, cei implicați în colectarea datelor scrise și-au propus să facă din BNC un corpus echilibrat și, în consecință, au căutat și au inclus date din diverse surse [3] .

Componente și conținut

Corpus de scriere

90% din corpus constă în exemple de utilizare a limbajului scris . Aceste exemple au fost preluate din ziare regionale și naționale, reviste științifice și periodice din diverse domenii științifice, ficțiune și jurnalism , atât din materiale publicate, cât și din materiale nepublicate (cum ar fi broșuri, scrisori, eseuri ale studenților, scenarii, discursuri), precum și din multe alte surse [5] .

Corpus conversațional

Restul de 10% din materialul BNC sunt modele de utilizare a limbii vorbite care au fost prezentate și înregistrate folosind transcripția practică .

Corpusul conversațional este format din două părți. Partea demografică conține o transcriere a conversațiilor spontane care au avut loc în condiții reale, cu participarea voluntarilor din diferite grupe de vârstă, regiuni și pături sociale. Aceste conversații au avut loc într-o varietate de situații, inclusiv întâlniri de afaceri sau guvernamentale și discuții la emisiuni radio sau la telefon [5] . Acest lucru a fost făcut pentru a lua în considerare atât distribuția demografică a limbii vorbite, cât și diversitatea semnificativă lingvistic a limbii datorită contextului [6] .

A doua parte a corpusului colocvial include mostre sensibile la context, cum ar fi transcripții ale înregistrărilor pregătite în timpul întâlnirilor sau evenimentelor speciale.

Toate înregistrările originale transcrise pentru a fi incluse în BNC au fost plasate în Arhiva de sunet British Library . Cele mai multe dintre intrări sunt disponibile pe site-ul web al Laboratorului de Fonetică al Universității Oxford .

Markup

Pachetul BNC conține marcaje parțiale . Pentru a face acest lucru, la crearea carenei, a fost folosit sistemul de marcare CLAWS. Acest sistem a trecut printr-o serie de modificări înainte ca ultima să fie primită - CLAWS4, care a fost folosită în caz. Sistemul CLAWS1 s-a bazat pe un model Markov ascuns și a putut marca corect 96% până la 97% din orice text. Când treceți de la CLAWS1 la CLAWS2, nevoia de pregătire manuală a textului înainte de a începe procesul de marcare a dispărut. CLAWS4 include îmbunătățiri precum dezambiguizarea lexicală mai puternică și variația ortografiei. Lucrările ulterioare asupra sistemului de marcare s-au concentrat pe creșterea ratei de succes a marcajului automat și pe reducerea muncii manuale de pregătire a textelor înainte de a începe marcarea prin introducerea unui software suplimentar care să înlocuiască munca manuală [2] [7] .

Mai târziu, a fost adăugată marcaj pentru a indica ambiguitatea anumitor cuvinte și expresii. În același timp, în ciuda capacității CLAWS4 de a determina automat tipurile de vorbire și semnificațiile cuvintelor, nevoia de marcare manuală a rămas, deoarece alte limbi decât engleza nu sunt acceptate în CLAWS4 [8] [9] .

Subcorpuri

Două sub-corpuri (subseturi de date BNC) au fost lansate sub denumirile BNC Baby și BNC Sampler. Ambele subcorpuri pot fi obținute prin comandă de pe site-ul BNC [10] .

BNC Baby este un subcorpus al BNC care constă din patru seturi de mostre de câte un milion de cuvinte fiecare. Cuvintele din fiecare set corespund unei anumite categorii de gen . Un set de mostre conține transcripții ale conversațiilor, în timp ce celelalte trei seturi conțin mostre de texte scrise din non -ficțiune, ficțiune și ziare . În același timp, marcajul disponibil în BNC [11] este păstrat în subcorpus . Cea mai recentă (a treia) ediție a fost lansată în format XML [12] .

BNC Sampler este un sub-corp format din două părți. Prima parte conține date scrise, a doua parte conține vorbire colocvială. Fiecare parte conține un milion de cuvinte. BNC Sampler a fost folosit inițial pentru a îmbunătăți procesul de marcare BNC, ceea ce a dus în cele din urmă la publicarea BNC World. Pe parcursul proiectului, BNC Sampler s-a îmbunătățit pe măsură ce experiența și cunoștințele privind marcajul au crescut. Ca rezultat, a fost creat BNC Sampler pe care îl cunoaștem astăzi [13] .

Informații tehnice

Corpusul este marcat conform recomandărilor consorțiului Text Encoding Initiative (TEI) și include adnotări lingvistice complete și informații contextuale [14] .

Accesați funcții

Pentru a utiliza corpul instrumentului de marcare parțială CLAWS4, trebuie să achiziționați o licență [15] . Alternativ, puteți utiliza serviciul de marcare oferit de Universitatea Lancaster [16] .

BNC în sine poate fi achiziționat atât cu o licență personală, cât și cu o licență colectivă. Ediția BNC este disponibilă în format XML și vine cu software-ul motor de căutare Xaira . Pachetul poate fi comandat prin site-ul BNC [17] .

Pentru ediția XML a BNC, a fost dezvoltat un manager de corpus BNCweb și este disponibil online. Interfața sa este ușor de utilizat și suportă interogarea și analiza materialelor corpusului [18] .

Probleme cu permisiunea materialului

BNC a fost primul corpus de dimensiunea sa disponibil unui public larg. Poate că acest lucru sa datorat formelor standard de acorduri între deținătorii de drepturi de autor și Consorțiu, pe de o parte, și între utilizatorii corpus și Consorțiu, pe de altă parte. Creatorii corpusului au încercat să încheie un acord de licență standard cu proprietarii drepturilor de proprietate intelectuală , una dintre prevederile căruia era includerea materialului în corpus fără plata unor taxe bănești. Un astfel de acord a fost facilitat de originalitatea și unicitatea cauzei [6] .

Cu toate acestea, s-a dovedit dificil să păstrăm anonimatul colaboratorilor fără a minimiza semnificația muncii lor. Orice aluzie opaca la identitatea autorului a fost eliminata din materialele corpus. Totodată, s-a luat în considerare și posibilitatea înlocuirii numelor reale cu alte nume pentru a păstra anonimatul, care însă a fost considerat nepotrivit [6] .

În plus, autorilor li s-a cerut inițial permisiunea pentru a include doar versiuni transcrise ale discursului lor, dar nu pentru a include discursul în sine. Deși o astfel de permisiune ar putea fi solicitată din nou, căutarea autorilor originali poate fi complicată de procesul de anonimizare în curs. În același timp, au devenit clari factorii care au agravat reticența deținătorilor de drepturi de autor de a-și dona materialele în corpus: textele integrale au fost excluse din corpus, ceea ce a condus la o lipsă de motivație a deținătorilor de drepturi de autor de a distribui informații prin corpus (mai ales datorită la baza sa necomercială) [6] .

Dezavantaje și limitări

Clasificare prea generală a textelor

Din 2001, BNC încă nu mai avea o clasificare a textelor scrise, altele decât pe sfere (ziare, ficțiune etc.), și o clasificare a textelor vorbite, altele decât după context și clasa demografică sau socioeconomică a participanților la conversație. De exemplu, o mare varietate de eșantioane de text fictiv ( romane , povestiri , poezii etc.) au fost incluse în corpus , dar informațiile despre subgenurile lor lipseau din antetele eșantionului și din documentația BNC. Astfel, pentru cercetători, cunoașterea diversității genurilor a fost practic inutilă, întrucât nu le-a fost ușor să obțină lucrări din subgenul dorit [19] .

În 2002, odată cu lansarea unei noi versiuni a corpusului - BNC World Edition, s-a încercat rezolvarea problemei de clasificare. Pe lângă sferele pentru texte vorbite și scrise, au fost identificate 70 de clase, care au permis cercetătorilor să extragă din corpus texte de un anumit gen [20] .

Cu toate acestea, chiar și după aceste inovații, implementarea clasificării are încă probleme, deoarece atribuirea unui gen sau subgen unui text este complicată de diverse subtilități. Împărțirea în clase pentru datele vorbite este mai puțin evidentă decât pentru datele scrise, datorită varietății mult mai mari de subiecte implicate în conversații. Există, de asemenea, probleme și ambiguități în ceea ce privește definirea unui subgen al oricărui gen, întrucât împărțirea în subgenuri în corpus a fost predeterminată în scopuri de standardizare [20] .

Erori de clasificare și titluri înșelătoare

La crearea corpusului, unele texte au fost clasificate incorect, adesea din cauza titlurilor înșelătoare. De exemplu, multe texte cu cuvântul „prelecție” în titlu sunt de fapt discuții în clasă sau seminarii educaționale care implică grupuri mici de oameni, sau prelegeri populare destinate unui public larg (mai degrabă decât prelegeri pentru studenți ) [ 19] . Un motiv pentru clasificarea greșită este că genul și subgenul pot fi specificate pentru majoritatea textelor, dar nu pentru toate. În plus, textul pe întreaga sa lungime se poate referi la diferite subgenuri, poate intra sub definiția unor genuri diferite [20] .

Lipsa materialului vorbit

Raportul dintre material scris și vorbit în BNC este 10:1 [6] . Acest lucru se datorează faptului că costul colectării, transcrierii și digitizării unui milion de cuvinte din vorbirea din lumea reală este de cel puțin 10 ori mai mare decât costul adăugării unui milion de cuvinte din ziare. Cu toate acestea, există o opinie că, deoarece vorbirea orală și cea scrisă sunt la fel de importante, acestea ar trebui prezentate în proporții egale în corpus [6] .

BNC nu este foarte util în studierea unor trăsături ale limbajului vorbit, deoarece în ea sunt incluse doar transcripții practice , iar trăsăturile paralingvistice ale comunicării sunt indicate foarte superficial [21] .

Oportunități limitate pentru studiul relațiilor lexicale

Relațiile dintre unele unități lexicale sunt prea ambigue pentru a fi descoperite eficient folosind interogări de căutare. Orice încercare de a căuta clauze atributive va oferi utilizatorului date eronate, oferind exemple de utilizare a pronumelor interogative și a cuvântului „că”. În plus, în general, nu este posibil să se identifice în mod programatic propoziții subordonate în care pronumele sunt omise (ca, de exemplu, în „omul pe care l-am văzut”). Din același motiv, este dificil de determinat utilizarea unor categorii semantice și pragmatice (îndoială, dezacord, recunoaștere) [21] .

Descriere limitată a situațiilor

Conform materialelor corpusului, este posibil să se stabilească dacă un discurs este rostit de un bărbat sau de o femeie, dar este imposibil să se afle din acestea dacă persoana care face discursul se adresează unui bărbat sau unei femei [21] .

Nu se aplică studiului unor tipuri speciale de texte

BNC este un corpus foarte divers și mixt, deci nu este potrivit pentru studiul oricăror tipuri sau genuri de texte foarte specifice, deoarece un astfel de tip sau gen este probabil să fie extrem de limitat și textele de acest tip nu sunt ușor de găsit. în corpus. De exemplu, în BNC există foarte puține scrisori de afaceri sau ședințe guvernamentale înregistrate, așa că pentru a le studia specificul, este de dorit să se colecteze un corpus mai mic format doar din texte de acest tip [21] .

Folosind BNC

Predarea limbii engleze

Există două modalități principale de utilizare a corpusului în predarea limbilor: crearea de materiale metodologice și învățarea prin analiză [21] .

Materiale didactice

Editorii și cercetătorii pot folosi mostrele din corpus pentru a crea recomandări de învățare a limbilor străine, programe de studiu și alte materiale didactice.

De exemplu, BNC a fost folosit de un grup de cercetători japonezi ca instrument în dezvoltarea unui sistem bazat pe web pentru învățarea limbii engleze în anumite domenii (afaceri, medicină) [22] . Sistemul a oferit studenților acces la cele mai frecvent utilizate șabloane de propoziții pentru a învăța din aceste exemple. Sursa unor astfel de propuneri în sistem a fost BNC (propunerile au fost însoțite de trimiteri la BNC pentru a dovedi realitatea aplicației).

Învățare prin analiză

Analiza corpus poate fi încorporată direct în metodele de predare a limbilor străine. În acest caz, studenții au posibilitatea de a clasifica în mod independent datele lingvistice ale corpusului și, prin urmare, să-și formeze o idee despre modelele și capacitățile limbii studiate pe baza acestei clasificări. Datele din corpusurile care sunt utilizate în această metodă de predare sunt relativ mici și, prin urmare, pot duce la o generalizare a ideilor despre limba studiată, ceea ce poate avea prea puțin de-a face cu starea reală a lucrurilor [21] .

Diverse

BNC poate fi folosit ca sursă de referințe atunci când se creează și se analizează texte, de exemplu, când se studiază utilizarea cuvintelor individuale în contexte diferite. Acest lucru vă permite să vă familiarizați cu diferite moduri de a folosi aceleași cuvinte [21] .

Pe lângă informațiile legate de limbă, BNC poate servi și ca sursă de date enciclopedice, cum ar fi cultura britanică și stereotipurile populare în Marea Britanie [21] .

Dicționare de traducere

În India, în 2012, peste 12.000 de cuvinte și expresii de la BNC au fost folosite pentru a dezvolta 22 de dicționare de traducere din limbile locale în engleză. Dezvoltarea a fost realizată ca parte a mișcării de reformare a sistemului de învățământ și de păstrare a limbilor popoarelor mici din India [23] .

Testare și evaluare

BNC, datorită dimensiunii sale, este excelent pentru utilizare ca material pentru testarea software-ului [24] . De exemplu, a fost folosit la testarea specificațiilor limbajului de marcare ale Text Encoding Initiative (TEI). În plus, 20 de milioane de cuvinte de la BNC au fost folosite pentru a evalua sistemul de atribuire a subcategoriilor în proiectul de analiză a sensului cuvântului Senseval [25] .

Cercetare științifică

  • Dovezi colocaționale din corpus național britanic [26]

Un studiu din 2000 al lui Hofmann și Lehmann care a analizat mecanismele care permit oamenilor să se ocupe în mod liber de uriașul lor set de colocații . În special, au fost studiate două mecanisme, dintre care unul permite colocărilor să fie întotdeauna gata de utilizare, iar celălalt permite oamenilor să extindă cu ușurință alocațiile gramatical sau sintactic pentru a se adapta la o situație specifică. În aceste scopuri, din BNC au fost extrase combinații rare de cuvinte [26] .

  • Enunțuri non-propoziționale: un studiu de corpus [27]

Un studiu din 2002 al lui Fernandez și Ginzburg, care a examinat dialoguri pline cu enunțuri care se terminau doar intuitiv și nu transportau informații în afara contextului. Practic, acestea sunt răspunsuri scurte tipice la întrebări. Pe parcursul studiului, fragmente de date BNC au fost folosite pentru a compila o clasificare completă și teoretică solidă a unor astfel de declarații [27] .

Procesarea limbajului natural

BNC este utilizat pe scară largă în munca în domeniul prelucrării morfologice (o ramură a procesării limbajului natural ). În special, datele de la BNC sunt folosite pentru a testa acuratețea, fiabilitatea și viteza instrumentelor de procesare a markerului morfologic în engleza britanică [28] . În plus, datele de la BNC au fost folosite pentru a crea un depozit extins de informații despre markerii morfologici în limba engleză [28] .

Recunoaștere

În general, este acceptat în rândul lingviștilor de calcul și corpus că BNC este o realizare remarcabilă, un corpus de dimensiuni enorme. Datorită eforturilor uriașe de a colecta și procesa în continuare o cantitate mare de date, BNC a devenit unul dintre cele mai valoroase corpuri. BNC este considerat a fi un corpus model din care sunt dezvoltate corpuri ulterioare (de exemplu , corpus naționale americane , cehe și poloneze ) [29] [30] .

BNC2014

În iulie 2014, BNC a fost anunțat de Cambridge University Press și Center for Corpus Approach to the Social Sciences de la Universitatea Lancaster că se lucrează pentru a crea un nou British National Corpus [31] . Prima etapă a proiectului comun al acestor două instituții a fost compilarea unui nou corpus colocvial de engleză britanică de la începutul până la mijlocul anilor 2010 [32] .

Vezi și

Note

  1. Lou Burnard și colab., 1998 , XIII.
  2. 1 2 3 Geoffrey Leech și colab., 1994 , p. 47-63.
  3. 1 2 3 4 5 Geoffrey Leech, 1993 , p. 9-15.
  4. 1 2 Ce este BNC? Arhivat pe 7 aprilie 2022 la Wayback Machine . Preluat la 12 martie 2012.
  5. 1 2 British National Corpus Arhivat la 4 martie 2016 la Wayback Machine . Preluat la 12 martie 2012.
  6. 1 2 3 4 5 6 Lou Burnard, 2002 .
  7. Geoffrey Leech 1994, 1994 , p. 622-628.
  8. Leech, Geoffrey; Smith, Nicholas Corpusul național britanic (versiunea 2) cu etichetare îmbunătățită la nivel de cuvinte . UCREL, Universitatea Lancaster, Marea Britanie (2000). Preluat la 17 martie 2012. Arhivat din original la 5 aprilie 2016.
  9. Leech, Geoffrey; Smith, Nicholas POS-Etichetare automată a corpusului . UCREL, Universitatea Lancaster, Marea Britanie (2000). Preluat la 17 martie 2012. Arhivat din original la 5 aprilie 2016.
  10. Produse BNC . Preluat la 18 martie 2012. Arhivat din original la 24 martie 2016.
  11. Burnard, Ghid de referință Lou pentru BNC-baby (2003). Data accesului: 18 martie 2012. Arhivat din original pe 4 martie 2016.
  12. Noua ediție a BNC Baby disponibilă . Preluat la 19 martie 2012. Arhivat din original la 4 iunie 2016.
  13. BNC Sampler: ediția XML (2008). Data accesului: 18 martie 2012. Arhivat din original pe 4 martie 2016.
  14. Burnard, Ghid de referință pentru utilizatorii Lou pentru British National Corpus (1995). Data accesului: 18 martie 2012. Arhivat din original pe 2 aprilie 2016.
  15. Obținerea unei licențe pentru etichetatorul CLAWS . UCREL, Universitatea Lancaster, Marea Britanie. Consultat la 17 martie 2012. Arhivat din original pe 5 martie 2016.
  16. Serviciul de etichetare CLAWS . UCREL, Universitatea Lancaster, Marea Britanie. Preluat la 17 martie 2012. Arhivat din original la 7 aprilie 2016.
  17. Cum se comandă . Preluat la 17 martie 2012. Arhivat din original la 23 octombrie 2015.
  18. Peter Lang, 2008 .
  19. 12 David Lee , 2001 .
  20. 1 2 3 Lee, David NOTE PENTRU ÎNSOȘIT INDEXULUI BNC WORLD EDITION (BIBLIOGRAFIC) (link indisponibil) (2002). Preluat la 17 martie 2012. Arhivat din original la 26 septembrie 2012. 
  21. 1 2 3 4 5 6 7 8 Guy Aston, 1998 .
  22. Danny Minn și colab., 2005 .
  23. Dicționare bilingve pentru promovarea limbilor materne din India  (14 martie 2012). Arhivat din original la 31 decembrie 2010. Preluat la 17 martie 2012.
  24. Ce pot face cu BNC-ul? . Preluat la 18 martie 2012. Arhivat din original la 13 martie 2016.
  25. Korhonen, Anna RESURSE DE EVALUARE pentru sistemele de achiziție prin subcategorizare în limba engleză (link inaccesibil) (2002). Preluat la 18 martie 2012. Arhivat din original la 13 decembrie 2012. 
  26. 1 2 Sebastian Hoffmann & Hans-Martin Lehmann, 2000 .
  27. 1 2 Raquel Fernandez & Jonathan Ginzburg, 2002 .
  28. 12 Guido Minnen et al, 2001 .
  29. František Čermák, 2003 .
  30. Richard Xiao, 2008 .
  31. Tony McEnery pe Twitter Arhivat pe 5 martie 2016 la Wayback Machine . Preluat la 17 martie 2015.
  32. ^ „Centre for Corpus Approaches to Social Science” Arhivat 15 septembrie 2016 la Wayback Machine . Preluat la 17 martie 2015.

Literatură

  • Lou Burnard, Guy Aston. Manualul BNC: explorarea Corpusului Național Britanic. - Edinburgh: Edinburgh University Press, 1998. - P. xiii. - ISBN 0-7486-1055-3 .
  • Peter Lang. Lingvistică corpus cu BNCweb: un ghid practic. - Peter Lang Publishing Group, 2008. - ISBN 978-3-631-56315-1 .

Link -uri