Аноним

Сжатие и индексация дерева: различия между версиями

Материал из WEGA
м
нет описания правки
(Новая страница: «== Ключевые слова и синонимы == XML-сжатие и индексация == Постановка задачи == Деревья – одн…»)
 
мНет описания правки
Строка 1: Строка 1:
== Ключевые слова и синонимы ==
== Ключевые слова и синонимы ==
XML-сжатие и индексация
XML-сжатие и индексация


== Постановка задачи ==
== Постановка задачи ==
Деревья – одна из базовых структур любых вычислений. Они используются практически в любых аспектах моделирования и представления таких вычислительных процессов, как поиск ключей, ведение каталогов и представление трассировки разбора или выполнения – и это лишь малая часть примеров. Один из новейших способов использования деревьев – XML, формат номер один для хранения и интеграции данных и обмена ими через Интернет (см. http://www.w3.org/XML/). Явное хранение деревьев, под одному указателю на потомка плюс указатели на некоторую дополнительную информацию (например, метки) нередко рассматривается как данность; однако хранение в таком виде может потребовать значительных расходов на память. Чтобы получить представление об их размерах, вспомним, что при простом кодировании дерева необходимо по меньшей мере 16 байт на вершину дерева: один указатель на дополнительную информацию (например, метку вершины) плюс три указателя – на родителя, первого ребенка и следующего брата. Подобные требования к объему памяти могут стать препятствием для обработки даже деревьев среднего размера – например, XML-документов. Далее будут рассмотрены лучшие решения для хранения непомеченных и помеченных деревьев, эффективные по объему занимаемой памяти и поддерживающие быстрые операции навигации и поиска над структурой дерева. В литературе такие решения носят название решений для индексации сокращенных или сжатых деревьев.
Деревья – одна из базовых структур любых вычислений. Они используются практически в любых аспектах моделирования и представления таких вычислительных процессов, как поиск ключей, ведение каталогов и представление трассировки разбора или выполнения – и это лишь малая часть примеров. Один из новейших способов использования деревьев – XML, формат номер один для хранения и интеграции данных и обмена ими через Интернет (см. http://www.w3.org/XML/). Явное хранение деревьев, под одному указателю на потомка плюс указатели на некоторую дополнительную информацию (например, метки) нередко рассматривается как данность; однако хранение в таком виде может потребовать значительных расходов на память. Чтобы получить представление об их размерах, вспомним, что при простом кодировании дерева необходимо по меньшей мере 16 байт на вершину дерева: один указатель на дополнительную информацию (например, метку вершины) плюс три указателя – на родителя, первого ребенка и следующего брата. Подобные требования к объему памяти могут стать препятствием для обработки даже деревьев среднего размера – например, XML-документов. Далее будут рассмотрены лучшие решения для хранения непомеченных и помеченных деревьев, эффективные по объему занимаемой памяти и поддерживающие быстрые операции навигации и поиска над структурой дерева. В литературе такие решения носят название решений для индексации сокращенных или сжатых деревьев.


== Нотация и основные факты ==
== Нотация и основные факты ==
С точки зрения теории информации стоимость хранения любого элемента совокупности U можно вычислить при помощи простого механизма подсчета: для различения любых двух элементов U необходимо не менее |U| бит1. Будем считать, что T – корневое дерево произвольных формы и размера. Рассмотрим три основных класса деревьев:
С точки зрения теории информации стоимость хранения любого элемента совокупности U можно вычислить при помощи простого механизма подсчета: для различения любых двух элементов U необходимо не менее |U| бит1. Будем считать, что T – корневое дерево произвольных формы и размера. Рассмотрим три основных класса деревьев:


Ординальные деревья.  T – непомеченное дерево, его потомки упорядочены слева направо. Количество ординальных деревьев на t вершинах составляет Q = t t /(t + 1), что порождает нижнюю границу памяти в 2f- ©(log t) бит.
Ординальные деревья.  T – непомеченное дерево, его потомки упорядочены слева направо. Количество ординальных деревьев на t вершинах составляет Q = t t /(t + 1), что порождает нижнюю границу памяти в 2f- ©(log t) бит.


Кардинальные k-арные деревья. Дерево T помечено: его ребра снабжены символами из алфавита S = f1..: ; kg. Любая вершина имеет степень не более k, поскольку ребра, выходящие из одной вершины, имеют различные метки. Типичными примерами кардинальных деревьев являются бинарные деревья (k = 2), несжатые деревья и Patricia-деревья, или сжатые радиксные деревья. Количество k-арных кардинальных деревьев на t вершинах составляет
 
Ctk = I \l{kt + 1), что дает нижнюю границу памяти
Кардинальные k-арные деревья. Дерево T помечено: его ребра снабжены символами из алфавита S = f1..: ; kg. Любая вершина имеет степень не более k, поскольку ребра, выходящие из одной вершины, имеют различные метки. Типичными примерами кардинальных деревьев являются бинарные деревья (k = 2), несжатые деревья и Patricia-деревья, или сжатые радиксные деревья. Количество k-арных кардинальных деревьев на t вершинах составляет Ctk = I \l{kt + 1), что дает нижнюю границу памяти t(log k + log e) бит, где k – медленно растущая функция от t.
t(log k + log e) бит, где k – медленно растущая функция от t.
 


Помеченные деревья и деревья с множественными метками. T – ординальное дерево, вершины которого помечены символами из алфавита E. В случае дерева с множественными метками каждая вершина помечена хотя бы одним символом. Вершины-братья могут иметь одинаковые символы в качестве меток, так что степень каждой вершины не ограничена; подпути с одними и теми же метками могут встречаться в дереве T неоднократно и начинаться в каких угодно местах. Теоретико-информационную нижнюю границу объема памяти данного класса деревьев на t вершинах легко вычислить посредством отдельного рассмотрения структуры дерева и памяти для хранения меток. Для помеченных деревьев она составляет logCt + tlog |i7| = t (log j £ j + 2) -©(log t) бит.
Помеченные деревья и деревья с множественными метками. T – ординальное дерево, вершины которого помечены символами из алфавита E. В случае дерева с множественными метками каждая вершина помечена хотя бы одним символом. Вершины-братья могут иметь одинаковые символы в качестве меток, так что степень каждой вершины не ограничена; подпути с одними и теми же метками могут встречаться в дереве T неоднократно и начинаться в каких угодно местах. Теоретико-информационную нижнюю границу объема памяти данного класса деревьев на t вершинах легко вычислить посредством отдельного рассмотрения структуры дерева и памяти для хранения меток. Для помеченных деревьев она составляет logCt + tlog |i7| = t (log j £ j + 2) -©(log t) бит.


Над деревом T должны поддерживаться следующие операции запроса:
Над деревом T должны поддерживаться следующие операции запроса:
Строка 26: Строка 30:


Запросы о подпути: пусть дан помеченный подпуть П, запрос ищет количество occ вершин дерева T, являющихся непосредственными потомками П. Каждое вхождение подпути может встречаться в дереве где угодно (т.е. он необязательно должен начинаться от корня).
Запросы о подпути: пусть дан помеченный подпуть П, запрос ищет количество occ вершин дерева T, являющихся непосредственными потомками П. Каждое вхождение подпути может встречаться в дереве где угодно (т.е. он необязательно должен начинаться от корня).


Элементарное решение задачи индексации дерева заключается в кодировании дерева T при помощи указателей и массивов, на которое требуется в сумме O(t log t) бит. Такое кодирование поддерживает ответ на базовые навигационные запросы за константное время, однако не является эффективным по объему памяти и требует полного обхода дерева для выполнения запроса о подпути или усложненных навигационных запросов. Задача заключается в разработке схем хранения деревьев, являющихся либо сжатыми, точнее говоря, «близкими к теоретико-информационной нижней границе», упоминавшейся выше, либо сжатыми в том смысле, что они обеспечивают хранение, «ограниченное рамками энтропии». Кроме того, такие схемы не должны требовать полного обхода дерева при выполнении большинства навигационных операций. Таким образом, решения для индексации сокращенного или сжатого дерева отличаются от простого сжатия входного дерева и последующей его декомпрессии в момент выполнения запроса.
Элементарное решение задачи индексации дерева заключается в кодировании дерева T при помощи указателей и массивов, на которое требуется в сумме O(t log t) бит. Такое кодирование поддерживает ответ на базовые навигационные запросы за константное время, однако не является эффективным по объему памяти и требует полного обхода дерева для выполнения запроса о подпути или усложненных навигационных запросов. Задача заключается в разработке схем хранения деревьев, являющихся либо сжатыми, точнее говоря, «близкими к теоретико-информационной нижней границе», упоминавшейся выше, либо сжатыми в том смысле, что они обеспечивают хранение, «ограниченное рамками энтропии». Кроме того, такие схемы не должны требовать полного обхода дерева при выполнении большинства навигационных операций. Таким образом, решения для индексации сокращенного или сжатого дерева отличаются от простого сжатия входного дерева и последующей его декомпрессии в момент выполнения запроса.
Далее будет предполагаться, что t > \S\, а в качестве модели вычислений будет рассматриваться машина с произвольным доступом к памяти (RAM) с размером слова @(lg t). В этом случае различные арифметические и побитовые булевы операции на отдельных словах можно выполнять за константное время.
Далее будет предполагаться, что t > \S\, а в качестве модели вычислений будет рассматриваться машина с произвольным доступом к памяти (RAM) с размером слова @(lg t). В этом случае различные арифметические и побитовые булевы операции на отдельных словах можно выполнять за константное время.


Основные результаты
 
== Основные результаты ==
Понятие сокращенных структур данных было введено Джейкобсоном в его важнейшей работе [10]. Он предложил схему хранения ординальных деревьев при помощи 2t + o(t) бит, поддерживающую базовые навигационные запросы за время O(log log t) (т.е. запросы о нахождении предка, первого потомка и следующего брата данной вершины). Позднее Манро и Раман [13] закрыли тему ординальных деревьев, предложив алгоритм выполнения базовых навигационных запросов и запроса о размере поддерева за константное время, требующий 2t + o(t) бит на хранение дерева. Эта схема хранения носит название сбалансированной скобочной записи дерева (Balanced Parenthesis, BP)2. Впоследствии Бенуа и др. [3] предложили схему хранения под названием «последовательность унарной степени с обходом в ширину» (Depth-First Unary Degree Sequence, DFUDS), также использующую 2t + o(t) бит памяти, но выполняющую за константное время большее количество запросов – таких как поиск i-го потомка, ранга потомка и степени вершины. Гири и др. [8] предложили еще одно представление, также требующее оптимального объема памяти и расширяющее список операций DFUDS запросом уровня предка.
Понятие сокращенных структур данных было введено Джейкобсоном в его важнейшей работе [10]. Он предложил схему хранения ординальных деревьев при помощи 2t + o(t) бит, поддерживающую базовые навигационные запросы за время O(log log t) (т.е. запросы о нахождении предка, первого потомка и следующего брата данной вершины). Позднее Манро и Раман [13] закрыли тему ординальных деревьев, предложив алгоритм выполнения базовых навигационных запросов и запроса о размере поддерева за константное время, требующий 2t + o(t) бит на хранение дерева. Эта схема хранения носит название сбалансированной скобочной записи дерева (Balanced Parenthesis, BP)2. Впоследствии Бенуа и др. [3] предложили схему хранения под названием «последовательность унарной степени с обходом в ширину» (Depth-First Unary Degree Sequence, DFUDS), также использующую 2t + o(t) бит памяти, но выполняющую за константное время большее количество запросов – таких как поиск i-го потомка, ранга потомка и степени вершины. Гири и др. [8] предложили еще одно представление, также требующее оптимального объема памяти и расширяющее список операций DFUDS запросом уровня предка.


Хотя все эти три представления обеспечивают оптимальное использование памяти, ни одно из них не поддерживает выполнение всех имеющихся операций за константное время: так, BP не поддерживает поиск i-го потомка и ранга потомка, а DFUDS и представление Гири не поддерживают поиск самого низкого общего предка. Недавно Дженссон и др. [11] расширили схему DFUDS по двум направлениям: (1) они показали, как реализовать все вышеупомянутые навигационные запросы за константное время 3, и (2) показали, как сжать новую схему хранения дерева до H*(T), что обозначает энтропию распределения степеней вершин дерева T.
Хотя все эти три представления обеспечивают оптимальное использование памяти, ни одно из них не поддерживает выполнение всех имеющихся операций за константное время: так, BP не поддерживает поиск i-го потомка и ранга потомка, а DFUDS и представление Гири не поддерживают поиск самого низкого общего предка. Недавно Дженссон и др. [11] расширили схему DFUDS по двум направлениям: (1) они показали, как реализовать все вышеупомянутые навигационные запросы за константное время 3, и (2) показали, как сжать новую схему хранения дерева до H*(T), что обозначает энтропию распределения степеней вершин дерева T.


Теорема 1 (Дженссон и др. [2007]. Для любого корневого дерева T с t вершинами существует схема индексации, использующая tH*(T) + O(t(loglog t)2/log t) бит памяти и выполняющая все навигационные запросы за константное время.
Теорема 1 (Дженссон и др. [2007]. Для любого корневого дерева T с t вершинами существует схема индексации, использующая tH*(T) + O(t(loglog t)2/log t) бит памяти и выполняющая все навигационные запросы за константное время.


Этот подход заметно лучше стандартного представления при помощи указателей, поскольку он требует не более H*(T) бит на одну вершину и не снижает эффективности усложненных навигационных запросов. В силу соотношения H*(T) < 2 это решение ни в каком случае не уступает BP и DFUDS, а его преимущества могут быть значительными. Этот результат может быть расширен для получения последовательности DFUDS с энтропией k-го порядка за счет применения любой схемы хранения строк со сжатием (см, например, [7] и ссылки в этой работе).
Этот подход заметно лучше стандартного представления при помощи указателей, поскольку он требует не более H*(T) бит на одну вершину и не снижает эффективности усложненных навигационных запросов. В силу соотношения H*(T) < 2 это решение ни в каком случае не уступает BP и DFUDS, а его преимущества могут быть значительными. Этот результат может быть расширен для получения последовательности DFUDS с энтропией k-го порядка за счет применения любой схемы хранения строк со сжатием (см, например, [7] и ссылки в этой работе).


Бенуа и др. [3] расширили использование алгоритма DFUDS на кардинальные деревья и предложили схему индексации с объемом памяти, близким к теоретико-информационной нижней границе, выполняющую различные навигационные запросы за константное время. Раман и др. [15] улучшили показатели использования памяти при помощи альтернативного подхода, основанного на хранении дерева в виде множества ребер, доказав теорему:
Бенуа и др. [3] расширили использование алгоритма DFUDS на кардинальные деревья и предложили схему индексации с объемом памяти, близким к теоретико-информационной нижней границе, выполняющую различные навигационные запросы за константное время. Раман и др. [15] улучшили показатели использования памяти при помощи альтернативного подхода, основанного на хранении дерева в виде множества ребер, доказав теорему:


Теорема 2 (Раман и др. [2002]). Для любого k-арного кардинального дерева T с t вершинами существует схема индексации, использующая log Ctk + o(t) + O(loglog k) бит памяти и выполняющая за константное время следующие операции: поиск предка, степени, ординальной позиции среди братьев, потомка с меткой c и i-го потомка заданной вершины.
Теорема 2 (Раман и др. [2002]). Для любого k-арного кардинального дерева T с t вершинами существует схема индексации, использующая log Ctk + o(t) + O(loglog k) бит памяти и выполняющая за константное время следующие операции: поиск предка, степени, ординальной позиции среди братьев, потомка с меткой c и i-го потомка заданной вершины.


Это представление не поддерживает эффективного выполнения операции поиска размера поддерева; в случае, если она оказывается наиболее важной, обратитесь к работе [3].
Это представление не поддерживает эффективного выполнения операции поиска размера поддерева; в случае, если она оказывается наиболее важной, обратитесь к работе [3].


Однако, несмотря на высокую активность исследователей, фундаментальная проблема сокращенной индексации помеченных деревьев большей частью остается нерешенной. Фактически вышеупомянутое сокращенное кодирование упорядоченных деревьев можно повторить \S\ раз (по одному разу на каждый возможный символ алфавита £), а затем применить алгоритм «разделяй и властвуй» [8] для снижения объема занимаемой памяти. Однако окончательная граница объема памяти составит 2t + tlog 1-Е1! + O(f|i;|(logloglog t)/(loglog t)) бит, что по-прежнему далеко от теоретико-информационной границы даже для относительно небольших значений S. С другой стороны, если наивысший приоритет имеют запросы о подпути (например, в XML), можно использовать подход из работы [12] – вариант структуры данных суффиксного дерева, должным образом адаптированной для индексации всех помеченных путей дерева T. Запросы о подпутях могут быть выполнены за время O(\П\ log \E\ + occ), однако памяти требуется по-прежнему O(t log t) бит (большие скрытые константы появляются в силу использования суффиксных деревьев). Недавно в нескольких работах [1, 2, 5] эта задача была рассмотрена во всей своей совокупности при помощи одновременной обработки запросов о подпути и базовых навигационных запросов [5] либо при помощи рассмотрения деревьев с множественными метками и более широкого множества навигационных операций [1, 2].
Однако, несмотря на высокую активность исследователей, фундаментальная проблема сокращенной индексации помеченных деревьев большей частью остается нерешенной. Фактически вышеупомянутое сокращенное кодирование упорядоченных деревьев можно повторить \S\ раз (по одному разу на каждый возможный символ алфавита £), а затем применить алгоритм «разделяй и властвуй» [8] для снижения объема занимаемой памяти. Однако окончательная граница объема памяти составит 2t + tlog 1-Е1! + O(f|i;|(logloglog t)/(loglog t)) бит, что по-прежнему далеко от теоретико-информационной границы даже для относительно небольших значений S. С другой стороны, если наивысший приоритет имеют запросы о подпути (например, в XML), можно использовать подход из работы [12] – вариант структуры данных суффиксного дерева, должным образом адаптированной для индексации всех помеченных путей дерева T. Запросы о подпутях могут быть выполнены за время O(\П\ log \E\ + occ), однако памяти требуется по-прежнему O(t log t) бит (большие скрытые константы появляются в силу использования суффиксных деревьев). Недавно в нескольких работах [1, 2, 5] эта задача была рассмотрена во всей своей совокупности при помощи одновременной обработки запросов о подпути и базовых навигационных запросов [5] либо при помощи рассмотрения деревьев с множественными метками и более широкого множества навигационных операций [1, 2].
Строка 54: Строка 69:
   
   
Схема индексации дерева из работы [5] основана на преобразовании помеченного дерева T, которое обозначается как xbw[T] и линеаризует дерево в два массива координат hSlast ; Sa}: первый из них хранит структуру дерева, а второй – перестановку меток T. xbw[T] имеет оптимальный (с точностью до членов более низкого порядка) размер 2t + tlog j17j бит и может быть построен и инвертирован за оптимальное линейное время. При разработке алгоритма XBW-Transform авторы вдохновлялись элегантным преобразованием Барроуза-Уилера для строк [4]. Мощь преобразования xbw[T] определяется тем фактом, что оно позволяет преобразовать задачи сжатия и индексации на помеченных деревьях в более простые задачи на строках. Следующие два примитива поиска по строке являются основными инструментами для индексации xbw[T]: rankc(S, i) возвращает количество вхождений символа c в префиксе строки S[1, i], а selectc(S, j) возвращает позицию j-го вхождения символа c в строке S. В литературе встречается множество эффективных по времени и объему памяти реализаций данных примитивов, которые могут трактоваться как черные ящики в задаче сжатой индексации xbw[T] (см., например, [2, 14] и ссылки в этих работах).
Схема индексации дерева из работы [5] основана на преобразовании помеченного дерева T, которое обозначается как xbw[T] и линеаризует дерево в два массива координат hSlast ; Sa}: первый из них хранит структуру дерева, а второй – перестановку меток T. xbw[T] имеет оптимальный (с точностью до членов более низкого порядка) размер 2t + tlog j17j бит и может быть построен и инвертирован за оптимальное линейное время. При разработке алгоритма XBW-Transform авторы вдохновлялись элегантным преобразованием Барроуза-Уилера для строк [4]. Мощь преобразования xbw[T] определяется тем фактом, что оно позволяет преобразовать задачи сжатия и индексации на помеченных деревьях в более простые задачи на строках. Следующие два примитива поиска по строке являются основными инструментами для индексации xbw[T]: rankc(S, i) возвращает количество вхождений символа c в префиксе строки S[1, i], а selectc(S, j) возвращает позицию j-го вхождения символа c в строке S. В литературе встречается множество эффективных по времени и объему памяти реализаций данных примитивов, которые могут трактоваться как черные ящики в задаче сжатой индексации xbw[T] (см., например, [2, 14] и ссылки в этих работах).


Теорема 3 ([Ферраджина и др. 2005]). Рассмотрим дерево T, состоящее из t вершин, помеченных символами алфавита S. Существует схема индексации сжатого дерева, обеспечивающая следующие показатели эффективности:
Теорема 3 ([Ферраджина и др. 2005]). Рассмотрим дерево T, состоящее из t вершин, помеченных символами алфавита S. Существует схема индексации сжатого дерева, обеспечивающая следующие показатели эффективности:
Строка 60: Строка 76:


• Для любого алфавита S индексация требует не менее tHk (Sa) + 2t + o(floglX'l)) бит, однако выполнение базовых навигационных запросов с метками и (численных) запросов о подпутях замедляется на коэффициент o((loglog\E\)3).
• Для любого алфавита S индексация требует не менее tHk (Sa) + 2t + o(floglX'l)) бит, однако выполнение базовых навигационных запросов с метками и (численных) запросов о подпутях замедляется на коэффициент o((loglog\E\)3).


Здесь Hk(s) – эмпирическая энтропия k-го порядка для строки s, Hk(s) < Hk_i(s) для любого k > 0.
Здесь Hk(s) – эмпирическая энтропия k-го порядка для строки s, Hk(s) < Hk_i(s) для любого k > 0.
Поскольку Hk(Sa) < Ho(Sa) < log \E\, индексация xbw[T] занимает не больше памяти, чем его стандартное представление, с точностью до членов более низкого порядка; зато это представление намного эффективнее для навигации и поиска по дереву T. Это представление относится к классу представлений помеченного дерева T, не имеющих указателей и поддерживающих дополнительные функции поиска (подробнее см. в [5]).
Поскольку Hk(Sa) < Ho(Sa) < log \E\, индексация xbw[T] занимает не больше памяти, чем его стандартное представление, с точностью до членов более низкого порядка; зато это представление намного эффективнее для навигации и поиска по дереву T. Это представление относится к классу представлений помеченного дерева T, не имеющих указателей и поддерживающих дополнительные функции поиска (подробнее см. в [5]).


Если более всего интересуют усложненные навигационные запросы над помеченными деревьями, а запросов о путях не предполагается, в этом случае больше всего подойдет подход Барбая и др. [1, 2]. Авторы предложили новое понятие сокращенного индекса, отличное от понятия сокращенного или сжатого кодирования, применяющегося во всех вышеприведенных решениях. Сокращенный индекс не затрагивает индексируемые данные; он обращается к ним только при помощи базовых операций, обеспечиваемых лежащим в его основе абстрактным типом данных (ADT), и требует асимптотически меньшего объема памяти в сравнении с теоретико-информационной нижней границей объема памяти для хранения самих данных. Авторы сводят задачу индексации помеченных деревьев к задаче индексации ординальных деревьев и строк, а задачу индексации деревьев с множественными метками – к задаче индексации ординальных деревьев и бинарных отношений. Затем они строят сокращенные индексы для строк и бинарных отношений. Для представления их результата нам потребуются следующие определения. Пусть m – общее количество символов в T, tc – количество вершин, помеченных символом c в T, а pc – максимальное количество меток c на любом корневом пути T (называемое рекурсивностью c). Определим p как среднюю рекурсивность T, а именно
Если более всего интересуют усложненные навигационные запросы над помеченными деревьями, а запросов о путях не предполагается, в этом случае больше всего подойдет подход Барбая и др. [1, 2]. Авторы предложили новое понятие сокращенного индекса, отличное от понятия сокращенного или сжатого кодирования, применяющегося во всех вышеприведенных решениях. Сокращенный индекс не затрагивает индексируемые данные; он обращается к ним только при помощи базовых операций, обеспечиваемых лежащим в его основе абстрактным типом данных (ADT), и требует асимптотически меньшего объема памяти в сравнении с теоретико-информационной нижней границей объема памяти для хранения самих данных. Авторы сводят задачу индексации помеченных деревьев к задаче индексации ординальных деревьев и строк, а задачу индексации деревьев с множественными метками – к задаче индексации ординальных деревьев и бинарных отношений. Затем они строят сокращенные индексы для строк и бинарных отношений. Для представления их результата нам потребуются следующие определения. Пусть m – общее количество символов в T, tc – количество вершин, помеченных символом c в T, а pc – максимальное количество меток c на любом корневом пути T (называемое рекурсивностью c). Определим p как среднюю рекурсивность T, а именно


Теорема 4 ([Барбай и др. 2007]). Рассмотрим дерево T, состоящее из t вершин с (возможно, множественными) метками с максимально возможным числом символов из алфавита S. Пусть m – общее количество символов в T. Предположим, что лежащий в его основе абстрактный тип данных обеспечивает выполнение базовых навигационных запросов за константное время и извлекает i-ю метку вершины за время f. Существует сокращенный индекс T, использующий m(logp + o(log(|I7|p))) бит и поддерживающий для данной вершины u следующие операции (где L = log log j E j log log log \£\):
Теорема 4 ([Барбай и др. 2007]). Рассмотрим дерево T, состоящее из t вершин с (возможно, множественными) метками с максимально возможным числом символов из алфавита S. Пусть m – общее количество символов в T. Предположим, что лежащий в его основе абстрактный тип данных обеспечивает выполнение базовых навигационных запросов за константное время и извлекает i-ю метку вершины за время f. Существует сокращенный индекс T, использующий m(logp + o(log(|I7|p))) бит и поддерживающий для данной вершины u следующие операции (где L = log log j E j log log log \£\):
Строка 72: Строка 91:
• Множество A c-предков u может быть получено за время 0(L(/+loglog|i;|)+|A|(loglogpc+logloglog|i;|(/+loglog|i;|))).
• Множество A c-предков u может быть получено за время 0(L(/+loglog|i;|)+|A|(loglogpc+logloglog|i;|(/+loglog|i;|))).


Применение
 
== Применение ==
Поскольку деревья широко применяются во множестве приложений, здесь приводится всего пара примеров, которые благодаря своей простоте подчеркивают гибкость и мощь технологии индексации сокращенных и сжатых деревьев.
Поскольку деревья широко применяются во множестве приложений, здесь приводится всего пара примеров, которые благодаря своей простоте подчеркивают гибкость и мощь технологии индексации сокращенных и сжатых деревьев.




Первый пример касается суффиксных деревьев – важнейшего блока алгоритмов для многих приложений для обработки строк, от биоинформатики до добычи данных и сжатия данных до поисковых машин. Стандартные реализации суффиксных деревьев требуют не менее 80 бит памяти на одну вершину. Сжатое суффиксное дерево для строки S[1, s] состоит из трех компонентов: топологии дерева, значений глубины строк, хранящихся во внутренних вершинах суффиксного дерева, и суффиксных указателей, хранящихся в листьях суффиксного дерева (также называемых суффиксным массивом S). Сокращенное представление дерева, предложенное в [11], может использоваться для кодирования топологии суффиксного дерева и глубины строк, что требует 4s + o(s) бит (предполагая без потери общности, что \S\ = 2). Суффиксный массив может быть сжат вплоть до энтропии k-го порядка S при помощи любого решения из перечисленных в работе [14]. Общий результат никогда не превышает 80 бит на вершину, а для строк с высоким уровнем сжимаемости может оказаться значительно ниже.
Первый пример касается суффиксных деревьев – важнейшего блока алгоритмов для многих приложений для обработки строк, от биоинформатики до добычи данных и сжатия данных до поисковых машин. Стандартные реализации суффиксных деревьев требуют не менее 80 бит памяти на одну вершину. Сжатое суффиксное дерево для строки S[1, s] состоит из трех компонентов: топологии дерева, значений глубины строк, хранящихся во внутренних вершинах суффиксного дерева, и суффиксных указателей, хранящихся в листьях суффиксного дерева (также называемых суффиксным массивом S). Сокращенное представление дерева, предложенное в [11], может использоваться для кодирования топологии суффиксного дерева и глубины строк, что требует 4s + o(s) бит (предполагая без потери общности, что \S\ = 2). Суффиксный массив может быть сжат вплоть до энтропии k-го порядка S при помощи любого решения из перечисленных в работе [14]. Общий результат никогда не превышает 80 бит на вершину, а для строк с высоким уровнем сжимаемости может оказаться значительно ниже.


Второй пример относится к формату XML, который нередко моделируется при помощи помеченного дерева. Сжатые и сокращенные индексы, описанные в работах [1, 2, 5], разработаны с теоретической точки зрения, однако оказываются вполне релевантными для практических систем обработки XML-файлов. К примеру, в [6] были опубликованы первые обнадеживающие экспериментальные результаты, подчеркивающие эффективность преобразования XBW-Transform на реальных базах данных XML. Авторы показали, что качественная адаптация алгоритма XBW-Transform позволяет сжимать данные в формате XML до самых современных XML-совместимых компрессоров, обеспечивая доступ к контенту, навигацию вверх и вниз по структуре XML-дерева и поиск простых выражений и подстрок в виде путей за несколько миллисекунд на данных в формате MB или XML, для каждой операции выполняя декомпрессию только небольшого фрагмента данных. Предыдущим решениям требовалось несколько секунд на операцию!
Второй пример относится к формату XML, который нередко моделируется при помощи помеченного дерева. Сжатые и сокращенные индексы, описанные в работах [1, 2, 5], разработаны с теоретической точки зрения, однако оказываются вполне релевантными для практических систем обработки XML-файлов. К примеру, в [6] были опубликованы первые обнадеживающие экспериментальные результаты, подчеркивающие эффективность преобразования XBW-Transform на реальных базах данных XML. Авторы показали, что качественная адаптация алгоритма XBW-Transform позволяет сжимать данные в формате XML до самых современных XML-совместимых компрессоров, обеспечивая доступ к контенту, навигацию вверх и вниз по структуре XML-дерева и поиск простых выражений и подстрок в виде путей за несколько миллисекунд на данных в формате MB или XML, для каждой операции выполняя декомпрессию только небольшого фрагмента данных. Предыдущим решениям требовалось несколько секунд на операцию!


Открытые вопросы
 
== Открытые вопросы ==
Полный список открытых вопросов и направлений будущих исследований слишком велик для данного обзора; подробно эти темы рассматриваются в литературе из прилагаемого списка. Упомянем два основных вопроса, естественным образом вытекающих из вышеизложенных соображений.
Полный список открытых вопросов и направлений будущих исследований слишком велик для данного обзора; подробно эти темы рассматриваются в литературе из прилагаемого списка. Упомянем два основных вопроса, естественным образом вытекающих из вышеизложенных соображений.


Учитывая потенциал XML-приложений, можно попробовать расширить операцию поиска подпутей для эффективного поиска всех листьев дерева T, метки которых содержат подстроку f$ и которые происходят от заданного подпути П. Под термином «эффективный» здесь понимается поиск, пропорциональный по времени \П\ и количеству полученных вхождений, но насколько возможно независимый от размера дерева T в наихудшем случае. В настоящее время такая операция поиска применима только для листьев, являющихся непосредственными потомками П, и даже при таком ограничении решение, предложенное в [6], не является оптимальным.
Учитывая потенциал XML-приложений, можно попробовать расширить операцию поиска подпутей для эффективного поиска всех листьев дерева T, метки которых содержат подстроку f$ и которые происходят от заданного подпути П. Под термином «эффективный» здесь понимается поиск, пропорциональный по времени \П\ и количеству полученных вхождений, но насколько возможно независимый от размера дерева T в наихудшем случае. В настоящее время такая операция поиска применима только для листьев, являющихся непосредственными потомками П, и даже при таком ограничении решение, предложенное в [6], не является оптимальным.


Существуют два возможных преставления деревьев, дающих вышеописанные результаты: представление в виде ординального дерева (BP, DFUDS или представление Гири и др. [8]) и XBW. Первое служит основой решений для усложненных навигационных операций, а второе – основой для сложных операций поиска подпутей. Возможно ли вывести одно уникальное преобразование для помеченного дерева T, сочетающее преимущества обоих подходов и все еще допускающее сжатие?
Существуют два возможных преставления деревьев, дающих вышеописанные результаты: представление в виде ординального дерева (BP, DFUDS или представление Гири и др. [8]) и XBW. Первое служит основой решений для усложненных навигационных операций, а второе – основой для сложных операций поиска подпутей. Возможно ли вывести одно уникальное преобразование для помеченного дерева T, сочетающее преимущества обоих подходов и все еще допускающее сжатие?


Экспериментальные результаты
 
== Экспериментальные результаты ==
Многочисленные примеры баз данных XML можно найти по адресу http://cs.fit.edu/~mmahoney/compression/text.html и в статье [6].
Многочисленные примеры баз данных XML можно найти по адресу http://cs.fit.edu/~mmahoney/compression/text.html и в статье [6].


Наборы данных
 
== Наборы данных ==
См. http://cs.fit.edu/~mmahoney/compression/text.html и ссылки в статье [6].
См. http://cs.fit.edu/~mmahoney/compression/text.html и ссылки в статье [6].


Ссылка на код
 
== Ссылка на код ==
Статья [6] включает список программных инструментов для сжатия и индексации данных в формате XML.
Статья [6] включает список программных инструментов для сжатия и индексации данных в формате XML.


См. также
 
Индексация сжатого текста
== См. также ==
'' *[[Индексация сжатого текста]]
► Операции ранжирования и выбора на двоичных строках
► Операции ранжирования и выбора на двоичных строках
► Сокращенное кодирование перестановок: применение к индексации текста
► Сокращенное кодирование перестановок: применение к индексации текста
4551

правка