Анализ неуспешных обращений к кэшу

Материал из WEGA

Постановка задачи

Рассматриваемая здесь задача касается доступа к нескольким последовательностям через кэш-память. Рассмотрим следующую схему доступа к памяти. k последовательностей данных, которые хранятся в непересекающихся массивах и имеют общую длину N, доступны следующим образом:


  for t := 1 to N do
  
  выбрать последовательность [math]\displaystyle{ s_i \in \{1, ..., k\} }[/math]
  
  обработать текущий элемент последовательности [math]\displaystyle{ s_i }[/math]
  
  перейти к следующему элементу последовательности [math]\displaystyle{ s_i }[/math]


Цель состоит в том, чтобы получить точные (а не только асимптотические) верхние и нижние границы замкнутой формы для этой задачи. Одновременный доступ к нескольким последовательностям данных широко используется в алгоритмах. Примерами алгоритмов, использующих эту парадигму, являются сортировка распределением, многопутевое слияние, очереди с приоритетами, перестановка и быстрое преобразование Фурье. Далее будет представлен обобщенный анализ этой проблемы, изложенный в работах [3, 6].


Типы кэшей, модели и анализ использования кэша

Современные компьютеры имеют иерархическую память, которая состоит из регистров, одного или нескольких уровней кэшей, основной памяти и внешних накопителей, таких как диски и ленты. По мере удаления от центрального процессора объем памяти увеличивается, но скорость работы с ней падает. Иерархическая память предназначена для повышения эффективности работы алгоритмов за счет использования временной и пространственной локальности при доступе к данным.


Кэши моделируются следующим образом. Кэш состоит из m блоков, каждый из которых содержит B элементов данных. Емкость кэша равна M = mB. Данные передаются между одним уровнем кэша и следующей более емкой и медленной памятью блоками по B элементов. Кэш организован в виде s = m/a наборов, где каждый набор состоит из a блоков. Память по адресу xB, называемая блоком памяти x, может быть размещена только в блоке из набора x mod s. Если a = 1, кэш называется кэшем с прямым отображением, а если a = s – полностью ассоциативным.


Если к блоку памяти x обращаются, а его нет в кэше, то имеет место неуспешное обращение к кэшу (или кэш-промах), и данные из блока памяти x переносятся в кэш, что влечет за собой накладные расходы на перезапись кэш-памяти. Чтобы разместить блок x, предполагается, что из кэш-набора x mod s исключается наиболее давно использованный (LRU) или первый использованный (FIFO) блок; это называется стратегией замены. Обратите внимание, что блок может быть исключен из набора, даже если в других наборах могут оставаться незанятые блоки.


Для определения количества неуспешных обращений к кэшу для задачи с N элементами данных производится анализ использования кэша. Для чтения или записи N элементов данных алгоритм должен совершить [math]\displaystyle{ \Omega(N/B) }[/math] неуспешных обращений к кэшу. Эти неуспешные обращения называются обязательными промахами или промахами по первой ссылке. В задаче организации доступа к нескольким последовательностям с помощью кэш-памяти для заданных значений M и B одной из целей является нахождение наибольшего k, такого, что из N обращений к данным O(N/B) будут неуспешными. Любопытно проанализировать неуспешные обращения к кэшу для важного случая кэша с прямым отображением, а также для общего случая множественно-ассоциативного кэша.


Большое количество алгоритмов было разработано на основе модели внешней памяти [9], и эти алгоритмы оптимизируют количество передач данных между основной памятью и диском. Представляется естественным использовать эти алгоритмы для минимизации неуспешных обращений к кэшу, но из-за ограниченной ассоциативности кэшей это оказывается не так просто. В модели внешней памяти передача данных находится под контролем программиста, и задача организации доступа к нескольким последовательностям имеет тривиальное решение. Алгоритм просто выбирает [math]\displaystyle{ k \le M_e/B_e }[/math], где [math]\displaystyle{ B_e }[/math] – размер блока, а [math]\displaystyle{ M_e }[/math] – объем основной памяти в модели внешней памяти. Для [math]\displaystyle{ k \le M_e/B_e }[/math] имеется [math]\displaystyle{ O(N/B_e) }[/math] обращений к внешней памяти. Поскольку кэши управляются аппаратно, задача становится нетривиальной. Например, рассмотрим случай, когда начальные адреса последовательностей равной длины k > a отображаются на i-й элемент одного и того же множества, а доступ к последовательностям осуществляется в порядке круговой очереди. В кэше со стратегией замены LRU или FIFO все обращения к последовательностям будут неуспешными. Такие патологические случаи можно преодолеть путем рандомизации начальных адресов последовательностей.


Родственные задачи

Очень часто с этой задачей связана другая – когда обращения к последовательностям чередуются с обращениями к небольшому рабочему массиву. Она встречается в таких приложениях, как сортировка распределением или матричное умножение.


Кэши могут эмулировать внешнюю память с оптимальной политикой замещения [1, 8], однако в этом случае требуется увеличение объема памяти на некоторый постоянный коэффициент. Поскольку методы эмуляции управляются программно и требуют модификации алгоритма, а не выбора параметров, они хорошо работают для достаточно простых алгоритмов [4].

Основные результаты

Теорема 1 [3]. Пусть имеется множественно-ассоциативная кэш-память с m блоками кэша, s = m/ a наборами кэша, размером блоков кэша B и стратегией замены LRU или FIFO. Обозначим за [math]\displaystyle{ U_a }[/math] ожидаемое число неуспешных обращений к кэшу в любом расписании из N последовательных обращений к k последовательностям с начальными адресами, являющимися по меньшей мере (a + 1)-wise независимыми.

(1) [math]\displaystyle{ U_1 \le k + \frac{N}{B} \bigg( 1 + (B - 1) \frac{k}{m} \bigg) }[/math],

(2) [math]\displaystyle{ U_1 \ge \frac{N}{B} \bigg( 1 + (B - 1) \frac{k - 1}{m + k - 1} \bigg) }[/math],

(3) [math]\displaystyle{ U_a \le k + \frac{N}{B} \bigg( 1 + (B - 1) \frac{k \alpha}{m} + \frac{1}{m / (k \alpha) - 1} + \frac{k - 1}{s - 1} \bigg) }[/math] для [math]\displaystyle{ k \le \frac{m}{\alpha} }[/math],

(4) [math]\displaystyle{ U_a \le k + \frac{N}{B} \bigg( 1 + (B - 1) \bigg( \frac{k \beta}{m} \bigg)^a + \frac{1}{m / (k \beta) - 1} \bigg) }[/math] для [math]\displaystyle{ k \le \frac{m}{2 \beta} }[/math],

(5) [math]\displaystyle{ U_a \ge \frac{N}{B} \bigg( 1 + (B - 1) P_{tail} \bigg( k - 1, \frac{1}{s}, a \bigg) \bigg) - k M }[/math],


где a = a(a) = a/(a\)lla, Ры1(п, p, a) = E,->e(") pi(1 — p)n ' – кумулятивная биномиальная вероятность, и f$ := 1 + a([ax~|), где x = x(a) = inff0 < z < 1 : z+zla{\az\) = 1g. Здесь 1 < a < e и ^(1) = 2; ^(oo) = 1 + e « 3:71. Этот анализ предполагает, что нарушитель (соперник) планирует доступ к последовательностям. Для нижней границы соперник первоначально продвигает последовательность si для i = 1: : : на Xi элементов, где Xi выбираются равномерно и независимо из f0; M - 1g. Затем соперник обращается к последовательностям в порядке круговой очереди.


Параметр k в верхней границе учитывает возможный дополнительный блок, обращение к которому может выполняться из-за рандомизации начальных адресов. Член -kM в нижней границе учитывает тот факт, что неудачные обращения к кэшу не могут быть подсчитаны, когда противник первоначально перебирает последовательности. Границы имеют вид pN + c, где c не зависит от N, а p называется вероятностью неудачи при обращении к кэшу. Положим r = k/m (отношение между количеством последовательностей и количеством блоков кэша), тогда границы для вероятности неудачи при обращении к кэшу в Теореме 1 приобретают следующий вид [3]:


Член 1/B отражает принудительный промах или промах по первой ссылке, которые должны иметь место, чтобы прочитать блок данных из последовательности. Остальные члены приходятся на конфликтные промахи, которые имеют место, когда блок данных удаляется из кэша до того, как все его элементы были прочитаны. Число конфликтных промахов можно уменьшить, ограничив количество последовательностей. По мере приближения r к нулю вероятность неудачного обращения к кэшу приближается к 1/B. В общем случае неравенство (4) утверждает, что число неудачных обращений равно O(N/B), если r < 1/(2/!) и (B - l)(r/S)a = O(1). Оба эти условия выполняются, если к < т/тах(В11а,2Р). Таким образом, имеет место O(N/B) неудачных обращений к кэшу при условии k = O(m/B1/a).


Анализ показывает, что для кэша с прямым отображением, где a = 1, верхняя граница выше нижней в r + 1 раз. Для a > 2 верхняя и нижняя границы близки, если (1 - 1/s)k & и (a + a)r <$; 1, оба эти условия выполняются, если k <$; s.


Рахман и Раман [ ] получили более близкие верхние и нижние границы для среднего случая неудачных обращений к кэшу, предполагая, что доступ к последовательностям осуществляется равномерно случайным образом в кэше с прямым отображением. Сен и Чаттерджи [ ] также получили верхние и нижние границы в предположении, что доступ к последовательностям происходит случайным образом [ ]. Ладнер, Фикс и Ламарка проанализировали проблему на кэш-памяти с прямым отображением на модели с независимыми ссылками [2].


Доступ к нескольким последовательностям с использованием дополнительного рабочего набора Как было отмечено ранее, во многих приложениях доступ к последовательностям чередуется с доступом к дополнительной структуре данных – рабочему набору, который определяет, как будет обрабатываться элемент последовательности. Предполагая, что рабочий набор имеет размер не более sB и хранится в смежных областях памяти, можно получить верхнюю границу на количество неудачных обращений к кэшу:


Теорема 2 [ ]. Обозначим за Ua ограничение на количество неудачных обращений к кэшу в Теореме 1 и определим U0 = N. При рабочем наборе, занимающем w неконфликтующих блоков памяти, ожидаемое количество неудачных обращений к кэшу, возникающих при N обращениях к данным последовательности и любом количестве числе обращений к рабочему набору, ограничено w + (1 - w/s)Ua + 2(w/s)Ua-i.


В кэш-памяти с прямым отображением для i = 1,.: k, если к последовательности i обращаются с вероятностью pi независимо от всех предыдущих обращений и за ней следует обращение к элементу i рабочего набора, то для количества неудачных обращений к кэшу имеются следующие верхние и нижние границы:


Теорема 3 [ ]. В кэше с прямым отображением с m блоками кэша, каждый из которых состоит из B элементов, если к последовательности i, для i = 1, ..., k, обращаются с вероятностью pi, а к блоку j рабочего набора, для j = 1... k/B, обращаются с вероятностью Pj, то ожидаемое количество неудачных обращений к кэшу при N обращениях к последовательности составляет не более N(ps + pw) + k(1 + 1/B), где:


Теорема 4 [ ]. В кэше с прямым отображением с m блоками кэша, каждый из которых состоит из B элементов, если к последовательности i, для i = 1, ...,  : : k, обращаются с вероятностью pi > 1/m, то ожидаемое количество неудачных обращений к кэшу при N обращениях к последовательности составляет не менее


Нижняя граница не учитывает взаимодействие с рабочим набором, поскольку это может только увеличить количество неудачных обращений к кэшу.


В теоремах 3 и 4 ps обозначает вероятность неудачного обращения к кэшу в процессе доступа к последовательности, а pw в теореме 3 – вероятность неудачи в процессе доступа к рабочему набору.

Если доступ к последовательностям осуществляется равномерно случайным образом, то, используя теоремы 3 и 4, получаем отношение между верхней и нижней границами, равное 3/(3 - r), где r = k/m. Таким образом, для равномерно случайных данных нижняя граница находится в пределах примерно 3/2 от верхней границы, когда k < m, и гораздо ближе к ней, когда k < $ .

Применение

На модели внешней памяти были разработаны многочисленные алгоритмы, которые обращаются к нескольким последовательностям данных, такие как сортировка слиянием, сортировка распределением, очереди с приоритетами, поразрядная сортировка. Такой анализ важен, поскольку позволяет сделать выбор начальных параметров для алгоритмов кэш-памяти.

Открытые вопросы

Анализ предполагает, что начальные адреса последовательностей рандомизированы, а существующие подходы к распределению случайных начальных адресов расходуют много виртуального адресного пространства [3]. Актуальной задачей является поиск хорошей онлайновой схемы рандомизации начальных адресов для последовательностей произвольной длины.

Экспериментальные результаты

Модель кэша является мощной абстракцией реальных кэшей, однако современные компьютерные архитектуры имеют сложную иерархию внутренней памяти с регистрами, несколькими уровнями кэшей и буферами ассоциативной трансляции (TLB). Накладные расходы на перезапись кэш-памяти в случае отсутствия в ней нужных данных по порядку величины меньше, чем стоимость обращения к диску, поэтому алгоритм может работать эффективнее, если будет допускать увеличение числа конфликтных промахов для снижения стоимости вычислений и принудительных промахов – за счет уменьшения числа проходов по данным. Это означает, что на практике анализ кэша используется для выбора начального значения k, которое затем точно настраивается для платформы и алгоритма [4, 5, 7, 10].


Для сортировки распределением в работе [ ] была рассмотрена эвристика для выбора k и получены уравнения для приблизительных кэш-промахов. Было показано, что на практике эти уравнения очень точны.

См. также

Литература

1. Frigo, M., Leiserson, C.E., Prokop, H., Ramachandran, S.: Cache-oblivious algorithms. In: Proc. of 40th Annual Symposium on Foundations of Computer Science (FOCS'99), pp. 285-298 IEEE Computer Society, Washington D.C. (1999)

2. Ladner, R.E., Fix, J.D., LaMarca, A.: Cache performance analysis of traversals and random accesses. In: Proc. of 10th Annual ACM-SIAM Symposium on Discrete Algorithms (SODA 1999), pp. 613-622 Society for Industrial and Applied Mathematics, Philadelphia (1999)

3. Mehlhorn, K., Sanders, P.: Scanning multiple sequences via cache memory. Algorithmica 35, 75-93 (2003)

4. Rahman, N., Raman, R.: Adapting radix sort to the memory hierarchy. ACM J. Exp. Algorithmics 6, Article 7 (2001)

5. Rahman, N., Raman, R.: Analysing cache effects in distribution sorting. ACM J. Exp. Algorithmics 5, Article 14 (2000)

6. Rahman, N., Raman, R.: Cache analysis of non-uniform distribution sorting algorithms. (2007) http://www.citebase.org/abstract?id=oai:arXiv.org:0706.2839 Accessed 13 August 2007 Preliminary version in: Proc. of 8th Annual European Symposium on Algorithms (ESA 2000). LNCS, vol. 1879, pp. 380-391. Springer, Berlin Heidelberg (2000)

7. Sanders, P.: Fast priority queues for cached memory. ACM J. Exp. Algorithmics 5, Article 7 (2000)

8. Sen, S., Chatterjee, S.: Towards a theory of cache-efficient algorithms. In: Proc. of 11th Annual ACM-SIAM Symposium on Discrete Algorithms (SODA 2000), pp. 829-838. Society for Industrial and Applied Mathematics (2000)

9. Vitter, J.S.: External memory algorithms and data structures: dealing with massive data. ACM Comput. Surv. 33, 209-271 (2001)

10. Wickremesinghe, R., Arge, L., Chase, J.S., Vitter, J.S.: Efficient sorting using registers and caches. ACM J. Exp. Algorithmics 7,9 (2002)