Индексирование сжатого текста: различия между версиями

Индексирование сжатого текста (посмотреть исходный код)

Версия от 08:41, 22 апреля 2020

171 байт добавлено , 22 апреля 2020

м

→‎Основные результаты

Irina

4920

правок

Версия от 10:39, 21 апреля 2020 (просмотреть исходный код) Irina (обсуждение \| вклад) (→‎Основные результаты) ← Предыдущая правка		Версия от 08:41, 22 апреля 2020 (просмотреть исходный код) Irina (обсуждение \| вклад) м (→‎Основные результаты) Следующая правка →
Строка 45:		Строка 45:


	Исходный FM-индекс налагает серьезные ограничения на размер алфавита. В последующих работах эти ограничения были устранены. С концептуальной точки зрения самый простой способ добиться более дружественного к алфавитам экземпляра FM-индекса заключается в построении дерева вейвлетов [ ] на <math>T^{bwt}</math>. Это бинарное дерево ~~на S~~, устроенное таким образом, что каждый узел v обрабатывает подмножество алфавита S(v), которое делит между своими детьми. Корень обрабатывает ~~элемент E~~, а каждый лист обрабатывает один символ. Каждый узел v кодирует такие позиции i таким образом, что ~~Tbwt~~[i] 2 S(v). Для этих позиций в узле v хранится только битовый вектор, указывающий, какая из них направляется налево, а какая – направо. Битовые векторы узла предварительно обрабатываются для выполнения запросов ~~rank1~~ () за константное время, используя o(n)-битные структуры данных [6, 12]. Гросси и др. [ ] показали, что дерево вейвлетов, построенное с использованием кодировки [ ], занимает ~~nH0~~ + o(n log cr) бит. После этого легко смоделировать один запрос ~~rankc~~() при помощи ~~log2~~ запросов ~~rank1~~(). С теми же затратами можно получить T [i]. Более поздние усовершенствования улучшили требования по времени, позволив получить, например, следующий результат:		Исходный FM-индекс налагает серьезные ограничения на размер алфавита. В последующих работах эти ограничения были устранены. С концептуальной точки зрения самый простой способ добиться более дружественного к алфавитам экземпляра FM-индекса заключается в построении ''дерева вейвлетов'' [5] на <math>T^{bwt}</math>. Это бинарное дерево над алфавитом <math>\Sigma</math>, устроенное таким образом, что каждый узел v обрабатывает подмножество алфавита S(v), которое делит между своими детьми. Корень обрабатывает <math>\Sigma</math>, а каждый лист обрабатывает один символ. Каждый узел v кодирует такие позиции i таким образом, что <math>T^{bwt}[i] \in S(v)</math>. Для этих позиций в узле v хранится только битовый вектор, указывающий, какая из них направляется налево, а какая – направо. Битовые векторы узла предварительно обрабатываются для выполнения запросов <math>rank_1()</math> за константное время, используя o(n)-битные структуры данных [6, 12]. Гросси и др. [4] показали, что дерево вейвлетов, построенное с использованием кодировки [12], занимает <math>nH_0 + o(n \; log \; \sigma)</math> бит. После этого легко смоделировать один запрос <math>rank_c()</math> при помощи <math>log_2 \; \sigma</math> запросов <math>rank_1()</math>. С теми же затратами можно получить <math>T^{bwt}[i]</math>. Более поздние усовершенствования улучшили требования по времени, позволив получить, например, следующий результат:

Индексирование сжатого текста: различия между версиями

Индексирование сжатого текста (посмотреть исходный код)

Версия от 08:41, 22 апреля 2020

Навигация

Поиск