Аноним

Усиление степени сжатия текста: различия между версиями

Материал из WEGA
м
Строка 35: Строка 35:




Отметим, что эмпирическая энтропия определяется для любой строки и может использоваться для измерения эффективности алгоритмов сжатия без каких-либо предположений о входных данных. К сожалению, для некоторых строк (с очень высокой сжимаемостью) эмпирическая энтропия обеспечивает слишком консервативное значение нижней границы. Например, для <math>s = a^n \;</math> имеет место <math>|s| \; H_k(s) = 0</math> для любого <math>k \ge 0 \;</math>. Чтобы лучше справляться со строками с высокой сжимаемостью, в работе [7] было введено понятие ''модифицированной эмпирической энтропии нулевого порядка'' <math>H_0^*(s) \;</math>, имеющей следующее свойство: <math>|s| \; H^*_0(s)</math> по меньшей мере равно количеству бит, необходимых для записи длины s в двоичной форме. ''Модифицированная эмпирическая энтропия k-го порядка'' <math>H^*_k \;</math> определяется как максимальная степень сжатия, которой можно достичь при просмотре ''не более чем'' k символов, следующих за кодируемым.
Отметим, что эмпирическая энтропия определяется для любой строки и может использоваться для измерения эффективности алгоритмов сжатия без каких-либо предположений о входных данных. К сожалению, для некоторых строк (с очень высокой сжимаемостью) эмпирическая энтропия обеспечивает слишком консервативное значение нижней границы. Например, для <math>s = a^n \;</math> имеет место <math>|s| \; H_k(s) = 0</math> для любого <math>k \ge 0 \;</math>. Чтобы лучше справляться со строками с высокой сжимаемостью, в работе [7] было введено понятие ''модифицированной эмпирической энтропии нулевого порядка'' <math>H_0^*(s) \;</math>, имеющей следующее свойство: <math>|s| \; H^*_0(s)</math> по меньшей мере равно количеству бит, необходимых для записи длины s в двоичной форме. ''Модифицированная эмпирическая энтропия k-го порядка'' <math>H^*_k \;</math> определяется через <math>H^*_0 \;</math> как максимальная степень сжатия, которой можно достичь при просмотре ''не более чем'' k символов, следующих за кодируемым.


== Преобразование Барроуза-Уилера ==
== Преобразование Барроуза-Уилера ==
4551

правка