Необщие ребра в филогенетических деревьях: различия между версиями

Перейти к навигации Перейти к поиску
м
нет описания правки
мНет описания правки
 
(не показано 12 промежуточных версий этого же участника)
Строка 4: Строка 4:


== Постановка задачи ==
== Постановка задачи ==
Филогенетические деревья представляют собой бинарные деревья, листья которых имеют неповторяющиеся метки. Задача заключается в нахождении хорошо известной метрики, называемой расстоянием в необщих ребрах, для сравнения расхождений между двумя филогенетическими деревьями. Грубо говоря, расстояние в необщих ребрах соответствует числу ребер, отличающих одно филогенетическое дерево от другого.
Филогенетические деревья представляют собой бинарные деревья, листья которых имеют неповторяющиеся метки. Задача заключается в нахождении хорошо известной метрики, называемой расстоянием в необщих ребрах и позволяющей сравнивать расхождения между двумя филогенетическими деревьями. Грубо говоря, расстояние в необщих ребрах соответствует числу ребер, отличающих одно филогенетическое дерево от другого.




Пусть e – ребро в филогенетическом дереве T. Удаление ребра e разбивает T на два поддерева. Метки листьев также разбиваются на два подмножества, соответствующих поддеревьям. Ребро e называется ребром, порождающим разбиение множества меток листьев. Пусть даны два филогенетических дерева T и T' с одним и тем же количеством листьев и одним и тем же множеством меток листьев. Ребро e дерева T является общим, если существует некоторое ребро e' в дереве T', такое, что ребра e и e' порождают одно и то же разбиение множества меток листьев в соответствующих деревьях. В противном случае ребро e является необщим. Отметим, что деревья T и T' имеют одно и то же число ребер, стало быть, число необщих ребер в T (относительно T') равно числу необщих ребер в T' (относительно T). Это число называется расстоянием в необщих ребрах между деревьями T и T0. Определим две задачи:
Пусть e – [[ребро]] в филогенетическом дереве T. Удаление ребра e разбивает T на два поддерева. Метки листьев также разбиваются на два подмножества, соответствующих поддеревьям. Ребро e называется ребром, порождающим разбиение множества меток листьев. Пусть даны два филогенетических дерева T и T' с одним и тем же количеством листьев и одним и тем же множеством меток листьев. Ребро e дерева T является общим, если существует некоторое ребро e' в дереве T', такое, что ребра e и e' порождают одно и то же разбиение множества меток листьев в соответствующих деревьях. В противном случае ребро e является необщим. Отметим, что деревья T и T' имеют одно и то же число ребер, стало быть, число необщих ребер в T (относительно T') равно числу необщих ребер в T' (относительно T). Это число называется расстоянием в необщих ребрах между деревьями T и T'. Определим две задачи:




Строка 26: Строка 26:
Расширение задачи
Расширение задачи


У филогенетических деревьев, часто используемых на практике, с ребрами ассоциированы веса. Понятие необщего ребра можно легко расширить на филогенетические деревья с взвешенными ребрами. В данном случае ребро e будет порождать разбиение множества листьев, а также мультимножества весов ребер (здесь веса ребер могут быть неуникальными). Пусть даны два филогенетических дерева R и R' с одним и тем же множеством меток листьев и одним и тем же мультимножеством весов ребер. Ребро e дерева R является общим, если существует некоторое ребро e' в дереве R', такое, что ребра e и e' порождают одно и то же разбиение множества меток листьев и мультимножества весов ребер. В противном случае ребро e является необщим. Расстояние в необщих ребрах между деревьями R и R'0 определяется сходным образом:
У филогенетических деревьев, часто используемых на практике, с ребрами ассоциированы веса. Понятие необщего ребра можно легко расширить на филогенетические деревья с взвешенными ребрами. В данном случае ребро e будет порождать разбиение множества меток листьев, а также мультимножества весов ребер (здесь веса ребер могут быть неуникальными). Пусть даны два филогенетических дерева R и R' с одним и тем же множеством меток листьев и одним и тем же мультимножеством весов ребер. Ребро e дерева R является общим, если существует некоторое ребро e' в дереве R', такое, что ребра e и e' порождают одно и то же разбиение множества меток листьев и мультимножества весов ребер. В противном случае ребро e является необщим. Расстояние в необщих ребрах между деревьями R и R' определяется сходным образом:




Строка 39: Строка 39:




Теорема 1. Пусть T и T – два входных филогенетических дерева с одним и тем же множеством меток листьев, n – число листьев в каждом дереве. Тогда расстояние в необщих ребрах между деревьями T и T0 может быть найдено за время O(n).
'''Теорема 1. Пусть T и T' – два входных филогенетических дерева с одним и тем же множеством меток листьев, n – число листьев в каждом дереве. Тогда расстояние в необщих ребрах между деревьями T и T' может быть найдено за время O(n).'''


Пусть Л – набор из k филогенетических деревьев с одним и тем же множеством меток листьев, n – число листьев в каждом дереве. Задача нахождения расстояния в необщих ребрах для всех пар может быть решена путем применения теоремы 1 к каждой паре филогенетических деревьев; таким образом, время ее решения составляет O(k2n). Паттенгейл и Морэ [9] предложили рандомизированный алгоритм на базе [ ] для приближенного решения задачи, который работает быстрее в случае n < k < 2n.


Пусть <math>\Delta \;</math> – набор из k филогенетических деревьев с одним и тем же множеством меток листьев, n – число листьев в каждом дереве. Задача нахождения расстояния в необщих ребрах для всех пар может быть решена путем применения теоремы 1 к каждой паре филогенетических деревьев; таким образом, время ее решения составляет <math>O(k^2 n) \;</math>. Паттенгейл и Морэ [9] предложили рандомизированный алгоритм на базе [7] для приближенного решения задачи, который работает быстрее в случае <math>n \le k \le 2^n \;</math>.


Теорема 2. Пусть " – параметр, " > 0. Тогда существует рандомизированный алгоритм, такой, что с вероятностью не менее 1 — k~2 расстояние в необщих ребрах между каждой парой входных филогенетических деревьев из Л может быть аппроксимировано с коэффициентом (1 + ") от действительного расстояния; время исполнения этого алгоритма составляет O(k(n2 + k log k)/"2).


В общем случае, пусть даны два входных филогенетических дерева R и R0 с одним и тем же множеством меток листьев и одним и тем же мультимножеством весов ребер, n – число листьев в каждом дереве. Обобщенная задача нахождения расстояния в необщих ребрах может быть легко решена за время O(n2) путем последовательного применения теоремы 1. Время исполнения удалось улучшить Хону и коллегам [ ].
'''Теорема 2. Пусть <math>\varepsilon \;</math> – параметр, <math>\varepsilon > 0 \;</math>. Тогда существует рандомизированный алгоритм, такой, что с вероятностью не менее <math>1 - k^{-2} \;</math> расстояние в необщих ребрах между каждой парой входных филогенетических деревьев из <math>\Delta \;</math> может быть аппроксимировано с коэффициентом <math>(1 + \varepsilon) \;</math> от действительного расстояния; время выполнения этого алгоритма составляет <math>O(k(n^2 + k \; log \; k) / \varepsilon^2)</math>.'''




Теорема 3. Расстояние в необщих ребрах между деревьями R и R0 может быть найдено за время O(n log n).
В общем случае, пусть даны два входных филогенетических дерева R и R' с одним и тем же множеством меток листьев и одним и тем же мультимножеством весов ребер, n – число листьев в каждом дереве. Обобщенная задача нахождения расстояния в необщих ребрах может быть легко решена за время <math>O(n^2) \;</math> путем последовательного применения теоремы 1. Время выполнения удалось улучшить Хону и коллегам [5].


'''Теорема 3. Расстояние в необщих ребрах между деревьями R и R' может быть найдено за время O(n log n).'''


== Применение ==
== Применение ==
Филогенетические деревья широко используются в биологии для моделирования эволюционных взаимоотношений между видами. Многие применяемые методы реконструкции (такие как максимальная экономичность, максимальное правдоподобие, совместимость и матрица расстояний) дают в результате разные филогенетические деревья на основе одного и того же набора видов; любопытно было бы вычислить расхождения между этими деревьями. Кроме того, в процессе сравнения можно обнаружить информацию о редких генетических событиях – таких как рекомбинация или конверсия генов. Чаще всего применяется метрика расхождения под названием «метрика Робинсона-Фоулдса» [11], представляющая собой расстояние в необщих ребрах.
Филогенетические деревья широко используются в биологии для моделирования эволюционных взаимоотношений между видами. Многие применяемые методы реконструкции (такие как максимальная экономичность, максимальное правдоподобие, совместимость и матрица расстояний) дают в результате разные филогенетические деревья на основе одного и того же набора видов; любопытно было бы вычислить расхождения между этими деревьями. Кроме того, в процессе сравнения можно обнаружить информацию о редких генетических событиях – таких как рекомбинация или конверсия генов. Чаще всего применяется метрика расхождения под названием «метрика Робинсона-Фоулдса» [11], представляющая собой расстояние в необщих ребрах.


Были предложены и другие метрики расхождения – например, обмен ближайшими соседями (NNI) и расстояние переноса поддеревьев (STT) (подробнее об этом в [ ]). Иногда биологи предпочитают именно эти метрики, поскольку они могут использоваться для обнаружения биологических событий, которые и вызвали расхождение. Однако вычислить эти метрики обычно значительно сложнее. В частности, ДасГупта и коллеги показали, что задача вычисления расстояний NNI и STT является NP-полной [1,2]. Для этих задач были разработаны алгоритмы аппроксимации (NNI: [4,8], STT: [1,6]). Любопытно, что для вычисления коэффициентов аппроксимации эти алгоритмы используют расстояние в необщих ребрах.
Были предложены и другие метрики расхождения – например, [[Обмен ближайшими соседями и относительные расстояния|обмен ближайшими соседями (NNI) и расстояние переноса поддеревьев (STT)]] (подробнее об этом в [2]). Иногда биологи предпочитают именно эти метрики, поскольку они могут использоваться для обнаружения биологических событий, которые и вызвали расхождение. Однако вычислить эти метрики обычно значительно сложнее. В частности, ДасГупта и коллеги показали, что задачи вычисления расстояний NNI и STT являются NP-полными [1, 2]. Для этих задач были разработаны аппроксимационные алгоритмы (NNI: [4, 8], STT: [1, 6]). Любопытно, что для вычисления коэффициентов аппроксимации эти алгоритмы используют расстояние в необщих ребрах.
 


== См. также ==
== См. также ==
Родственная задача измерения сходства между двумя входными филогенетическими деревьями.
Родственная задача измерения сходства между двумя входными филогенетическими деревьями:
* ''[[Поддерево максимального соответствия]]
* ''[[Поддерево максимального соответствия]]


== Литература ==
== Литература ==
4501

правка

Навигация