Новые процессоры ARM включают инструкции PLD и PLI.Инструкции по предварительной выборке на ARM
Я пишу плотные внутренние петли (на C++), которые имеют не последовательный паттерн доступа к памяти, а шаблон, который, естественно, мой код полностью понимает. Я ожидал бы существенного ускорения, если бы я мог предварительно выбрать следующее место при обработке текущего местоположения памяти, и я ожидал бы, что это будет достаточно быстро, чтобы испытать, чтобы стоить эксперимент!
Я использую новые дорогие компиляторы из ARM, и, похоже, он не включает инструкции PLD нигде, не говоря уже о том, что в этом конкретном цикле я волнуюсь.
Как включить явные инструкции предварительной выборки в свой код на C++?
Если пример конкретного цикла, который вы оптимизируете, включен в вопрос, участники могут помочь найти оптимизацию, отличную от инструкций PLD, и могут привести конкретные примеры. – 2008-09-17 12:34:11