浜松のWEBシステム開発・スマートフォンアプリ開発・RTK-GNSS関連の開発はお任せください
株式会社シーポイントラボ
TEL:053-543-9889
営業時間:9:00~18:00(月〜金)
住所:静岡県浜松市中区富塚町1933-1 佐鳴湖パークタウンサウス2F

文字の出現頻度

 言語にはよく使われる文字と使われない文字の偏りがあります。アルファベットの母音と子音の使用頻度の違いは分かりやすいですし、調査結果もググれば出てきます。下図はアルファベットの出現頻度です。自分の覚えとも近かったので大体こんな感じです。

この出現頻度の偏りを用いた二つの技術を紹介します。
 一つは単純な換次式暗号の解読です。これはA→え、B→あ、C→さ、…のように1対1で本来の文字と別の記号を割り当てる暗号です。文中に出てくる語の頻度とある言語の使用頻度が近い場合、それは重要な手掛かりになり、十分な量の暗号文があれば暗号文のみで解読まで可能です。
 また、通信量の減少にも用いることができます。文字の出現頻度を考慮して01符号にアルファベットを割り当てることを考えると
0->e
1->a
00->t
01->i
10->o
11->s
000->n

と頻出する語に短い符号を割り当てることで雑な割り当てに比べて通信量を少なくすることができます。

  • この記事いいね! (0)