Frekvensanalyse

      I det skrevne danske sprog bruges alle bogstaver ikke lige meget. Faktisk kan man lave statistik på det, og finde en typisk fordeling af bogstaver. Det mest brugte bogstav er "E", og omkring 16% af alle danske tekster består af bogstavet "E".

      Når man bryder koder kan man udnytte fordelingen af bogstaver til sin fordel.

      Bogstavhyppighed

      Man kan lave statistik på hyppigheden af forskellige bogstaver i en dansk tekst. Tæller man alle bogstaverne i oversættelsen af Jules Vernes klassiker "En verdensomsejling under havet", får man denne fordeling af bogstaver:

      Bogstavhyppighed
      Bogstav Hyppighed
      a 6.01%
      b 1.41%
      c 0.29%
      d 7.24%
      e 16.70%
      f 2.27%
      g 4.56%
      h 1.88%
      i 5.55%
      j 1.11%
      k 3.07%
      l 4.85%
      m 3.40%
      n 7.55%
      o 4.14%
      p 1.33%
      q 0.01%
      r 7.61%
      s 5.67%
      t 7.03%
      u 1.85%
      v 2.88%
      w 0.02%
      x 0.02%
      y 0.72%
      z 0.02%
      æ 0.93%
      ø 0.84%
      å 1.03%

      Da foredelingen af bogstaver godt kan variere lidt fra tekst til tekst, er det mere brugbart at opdele bogstaverne i grupper udfra deres hyppighed. Sorterer vi tabellen efter hyppigheden, ser vi at bogstaverne omtrent kan opdeles i 7 grupper:

      E 
      R T N 
      I A D S O
      L G K V M F 
      P U B H Æ Y 
      Å Ø J C W 
      X Z Q
      

      Bogstavet E er altså i en klasse for sig med 16% af teksten, ligesom både R, T og N er de næsthyppigste og hver udgør ca. 7,5%. Det er altså de fire bogstaver som gør det lettest at anvende frekvensanalyse.

      Man kan tilsvarende se på bogstaver, der står ved siden af hinanden. Bogstaver der står ved siden af hinanden kaldes et digram. De mest almindelige digrammer er (på dansk):

      ER DE EN ET GE RE TE TI
      


      Trigrammer består af tre bogstaver der optræder ved siden af hinanden. På dansk er de mest almindelige trigrammer:

      DET DEN ERE DER
      
      ↑Gå et afsnit tilbage

      Eksempler

      AfsnitstumpAfsnitstump
      Dette afsnit er kun påbegyndt. Hvis du ved mere om emnet, kan du hjælpe alle os andre ved at udvide afsnittet.

      Frekvensanalyse af Cæsarkode

      Frekvensanalyse af Kodeordskode

      ↑Gå et afsnit tilbage

      Bogstavoptæller

      ...

      ↑Gå et afsnit tilbage

      Forholdsregler mod frekvensanalyse

      Vil du gerne gøre din kode sikker mod frekvensanalyse, kan du ændre fordelingen af bogstaver. Du kan blandt andet skrive dine ord mæd ztåvefejl zå dæ hyppige bogszaver ikkæ optrædep zå ofte. Alternativt kan du "salte" sin kode med nogle ekstra tegn. På dansk kan du for eksempel indsætte bogstaverne "x","z","w" og "q" tilfældige steder i teksten, og på den måde slører du den oprindelige fordeling af bogstaver. Bruger du et større alfabet, kan du vælge at have rigtig mange "tomme" tegn.

      ↑Gå et afsnit tilbage
      Senest ændret 30. oktober 2014 kl. 20:00