Усиление степени сжатия текста: различия между версиями

Перейти к навигации Перейти к поиску

Источник — http://pco.iis.nsk.su/wega/index.php/Усиление_степени_сжатия_текста

@@ Строка 6: / Строка 6: @@
-Классические алгоритмы Хаффмана и арифметического кодирования [ ] могут служить примерами статистических алгоритмов сжатия, обычно кодирующих входной символ в соответствии с частотой его вхождения в данных, подлежащих сжатию.1 Этот подход эффективен и прост в реализации, однако обеспечивает невысокий уровень сжатия. Эффективность работы статистических алгоритмов сжатия можно повысить в результате использования моделей более высокого порядка, получающих более качественную оценку частоты встречаемости входных символов. Алгоритм сжатия PPM [ ] реализует эту идею за сбора данных о частоте вхождения всех символов, попадающих в любой контекст длины k, и сжатия их при помощи арифметического кодирования. Длина контекста k представляет собой параметр алгоритма, который определяется подлежащими сжатию данными: он будет разным при сжатии текста на английском языке, последовательности ДНК или документа в формате XML. Можно привести и другие примеры сложных программ сжатия, таких как алгоритмы Лемпеля-Зива и Барроуза-Уилера [ ]. Все эти алгоритмы, учитывающие контекст, хороши по критерию эффективности работы, однако сложны для реализации и анализа.
+Классические алгоритмы Хаффмана и арифметического кодирования [1] могут служить примерами ''статистических'' алгоритмов сжатия, обычно кодирующих входной символ в соответствии с ''общей'' частотой его вхождения в данных, подлежащих сжатию. [''Динамические версии этих алгоритмов рассматривают частоту схождения символа в уже просканированной порции входных данных''.] Этот подход эффективен и прост в реализации, однако обеспечивает невысокий уровень сжатия. Эффективность работы статистических алгоритмов сжатия можно повысить в результате использования моделей ''более высокого порядка'', получающих более качественную оценку частоты встречаемости входных символов. Алгоритм сжатия PPM [9] реализует эту идею за сбора данных о частоте вхождения всех символов, попадающих в ''любой'' контекст длины k, и сжатия их при помощи арифметического кодирования. Длина контекста k представляет собой параметр алгоритма, который определяется подлежащими сжатию данными: он будет разным при сжатии текста на английском языке, последовательности ДНК или документа в формате XML. Можно привести и другие примеры сложных программ сжатия, таких как алгоритмы Лемпеля-Зива и Барроуза-Уилера [9], использующих информацию о контексте ''неявным'' образом. Все эти алгоритмы, учитывающие контекст, хороши по критерию эффективности работы, однако сложны для реализации и анализа.
-Динамические версии этих алгоритмов рассматривают частоту схождения символа в уже просканированной порции входных данных.
@@ Строка 15: / Строка 13: @@
 (i) новый алгоритм использует усиленный алгоритм сжатия в качестве черного ящика;
-(ii) новый алгоритм выполняет сжатие в стиле PPM, автоматически выбирая оптимальное значение к k;
+(ii) новый алгоритм выполняет сжатие в стиле PPM, автоматически выбирая ''оптимальное'' значение k;
 (iii) асимптотическая эффективность нового алгоритма по соотношению времени и памяти соответствует эффективности усиленного алгоритма сжатия.

Усиление степени сжатия текста: различия между версиями

Навигация

Поиск