Trigramele sunt un caz special de n-grame , unde n este egal cu 3. Ele sunt adesea folosite în procesarea limbajului natural pentru a efectua analize statistice a textelor și în criptografie pentru a controla și exploata cifrurile și codurile.
Contextul este foarte important, variația în ranguri și procente de analiză este ușor de dedus din diferite dimensiuni ale eșantionului, diferiți autori; sau diferite tipuri de documente: poezie, science fiction, documentare tehnologică; și niveluri de scriere: povești pentru copii împotriva adulților, ordine și rețete militare. [1] [2]
O analiză tipică a frecvenței criptoanalitice arată că cele mai comune 16 trigrame la nivel de caractere în limba engleză sunt:
Locație [2] | trigramă | Frecvență [3] (diverse surse) |
---|---|---|
unu | cel | 1,81% |
2 | și | 0,73% |
3 | tha | 0,33% |
patru | ent | 0,42% |
5 | ing | 0,72% |
6 | ion | 0,42% |
7 | tio | 0,31% |
opt | pentru | 0,34% |
9 | nde | |
zece | are | |
unsprezece | nce | |
12 | EDT | |
13 | tis | |
paisprezece | adesea | 0,22% |
cincisprezece | st | 0,21% |
16 | bărbați |
Deoarece mesajele telegrafice criptate omit adesea semnele de punctuație și spațiile, analiza frecvenței criptografice a unor astfel de mesaje include trigrame care depășesc granițele cuvintelor. Acest lucru face ca trigramele precum „edt” să apară frecvent, deși ele nu pot apărea niciodată în niciunul dintre cuvintele acestor mesaje. [patru]
Propoziția „ Vulpea roșie rapidă sare peste câinele maro leneș ” are următoarele trigrame la nivelul cuvântului:
roșu rapid vulpe roșie rapidă saritura de vulpe rosie vulpea sari peste sari peste peste leneși maroul leneș câine maro leneșȘi trigrama la nivel de cuvânt „roșul rapid” are următoarele trigrame la nivel de caracter (unde litera de subliniere „_” reprezintă spațiu):
cel el_ e_q _qu qui uic ick ck_ k_r _re roșuprocesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |