Trigrama (analiza textului)

Trigramele sunt un caz special de n-grame , unde n este egal cu 3. Ele sunt adesea folosite în procesarea limbajului natural pentru a efectua analize statistice a textelor și în criptografie pentru a controla și exploata cifrurile și codurile.

Frecvență

Contextul este foarte important, variația în ranguri și procente de analiză este ușor de dedus din diferite dimensiuni ale eșantionului, diferiți autori; sau diferite tipuri de documente: poezie, science fiction, documentare tehnologică; și niveluri de scriere: povești pentru copii împotriva adulților, ordine și rețete militare. [1] [2]

O analiză tipică a frecvenței criptoanalitice arată că cele mai comune 16 trigrame la nivel de caractere în limba engleză sunt:

Locație [2] trigramă Frecvență [3]
(diverse surse)
unu cel 1,81%
2 și 0,73%
3 tha 0,33%
patru ent 0,42%
5 ing 0,72%
6 ion 0,42%
7 tio 0,31%
opt pentru 0,34%
9 nde
zece are
unsprezece nce
12 EDT
13 tis
paisprezece adesea 0,22%
cincisprezece st 0,21%
16 bărbați

Deoarece mesajele telegrafice criptate omit adesea semnele de punctuație și spațiile, analiza frecvenței criptografice a unor astfel de mesaje include trigrame care depășesc granițele cuvintelor. Acest lucru face ca trigramele precum „edt” să apară frecvent, deși ele nu pot apărea niciodată în niciunul dintre cuvintele acestor mesaje. [patru]

Exemple

Propoziția „ Vulpea roșie rapidă sare peste câinele maro leneș ” are următoarele trigrame la nivelul cuvântului:

roșu rapid vulpe roșie rapidă saritura de vulpe rosie vulpea sari peste sari peste peste leneși maroul leneș câine maro leneș

Și trigrama la nivel de cuvânt „roșul rapid” are următoarele trigrame la nivel de caracter (unde litera de subliniere „_” reprezintă spațiu):

cel el_ e_q _qu qui uic ick ck_ k_r _re roșu

Note

  1. Linton, Tom Relative Frequencies of Letters in General English Plain text . Colegiul Central (2001). Arhivat din original pe 22 ianuarie 2007.
  2. 12 Lewand , Robert. [ [1]  în „ Google Books ” Matematică criptologică]. - The Mathematical Association of America , 2000. - P. 37. - ISBN 978-0-88385-719-9 .
  3. Frecvențele literelor engleze . Criptografie practică . Preluat la 31 mai 2022. Arhivat din original la 12 mai 2022.
  4. Căutare vocală SEO . combustibilonline . Preluat la 31 mai 2022. Arhivat din original la 25 septembrie 2021.