C++ 并行算法实战：如何使用 std::execution 提升性能

2026-01-27 作者 stdcpp

在 C++17 标准中，标准库首次提供了对并行算法的支持，借助 std::execution 命名空间，你可以在保持代码清晰可维护的前提下，轻松利用多核 CPU 的优势。本文将从理论到实践，逐步介绍 std::execution 的使用方法、典型场景、性能调优技巧以及常见陷阱，帮助你在项目中快速上手并行算法。

1. 了解 std::execution 产生的动机

在多核时代，单线程代码往往无法充分利用硬件资源。传统做法是使用线程库（如 std::thread 或 OpenMP）手动拆分任务，但这会导致代码冗长、错误概率高且难以维护。C++ 引入 std::execution 之后，标准算法（如 std::for_each, std::sort, std::transform 等）可以通过传递执行策略（execution policy）直接切换到并行模式，从而保持代码与串行版几乎完全一致。

执行策略分为三类：

策略	说明	典型算法	适用场景
`std::execution::sequenced_policy`	传统串行执行	所有算法	低并行度、递归等
`std::execution::parallel_policy`	并行执行	适用于不需要保持原始顺序的算法	需要并行但不关心顺序
`std::execution::parallel_unsequenced_policy`	并行 + SIMD	需要 SIMD 优化的算法	需要硬件加速的数值计算

2. 基础用法示例

2.1 并行 `for_each`

#include <vector>
#include <algorithm>
#include <execution>
#include <iostream>

int main() {
    std::vector <int> data(1000000);
    std::iota(data.begin(), data.end(), 1); // 1~1000000

    std::for_each(std::execution::par, data.begin(), data.end(),
                  [](int &x){ x *= 2; });

    std::cout << "First element after doubling: " << data.front() << '\n';
}

提示：std::execution::par 表示 parallel_policy，让 for_each 并行执行。

2.2 并行排序

std::vector <int> vec = { ... };
std::sort(std::execution::par, vec.begin(), vec.end());

对于大型数据集，par 排序往往比串行版本快 2-3 倍，前提是硬件支持。

2.3 并行 `transform`

std::vector <int> src(1'000'000, 2);
std::vector <int> dst(src.size());

std::transform(std::execution::par_unseq, src.begin(), src.end(),
               dst.begin(), [](int x){ return x * x; });

par_unseq 允许编译器使用 SIMD 指令进一步加速。

3. 性能优化技巧

技巧	说明	示例
避免共享可写数据	并行算法会尝试拆分任务；若多个线程写同一内存，性能会骤降。	使用线程安全的数据结构或仅在需要时使用锁。
保持算法无副作用	并行执行需要保证每个线程的工作不相互影响。	避免在 lambda 内部修改全局变量。
合适的数据大小	过小的数据集切分成本高；过大则易产生内存抖动。	经验值：≥ 1 000 000 个元素。
合理分配线程数	`std::execution::par` 默认使用 `std::thread::hardware_concurrency()`，但可自定义。	通过 `std::execution::par_n` 在 C++23 引入。
利用缓存友好结构	连续内存访问更易被预取。	使用 `std::vector` 而非链表。
测量并对比	并行总是更快？不一定；需要基准测试。	`std::chrono` 或 `Google Benchmark`。

4. 常见陷阱与错误

错误	影响	解决方案
未开启多线程编译选项	并行执行会退回串行。	`-pthread` (Linux), `/MD` (MSVC)
使用 `for_each` 对容器大小变化的元素	线程安全问题。	在 lambda 内部避免修改容器结构。
在 lambda 中使用 `std::mutex`	造成竞争导致性能极低。	使用 `parallel_unseq` 或 `std::atomic`
过度使用 `par_unseq`	编译器可能无法充分利用 SIMD。	先用 `par`，再测试 `par_unseq` 的收益。
忽略异常传播	并行算法内部抛异常会终止所有线程。	捕获异常并记录或使用 `std::exception_ptr`

5. 与传统多线程的对比

维度	`std::execution`	`std::thread` + 手动拆分
代码量	低	高
可读性	高	低
错误率	低	高
调试难度	低	高
性能	与手动拆分相当	取决于实现
可维护性	高	低

结论：除非你有特殊需求（如自定义调度器、细粒度任务拆分），使用 std::execution 是首选。

6. 进阶话题

自定义执行策略：在 C++23，你可以通过 std::execution::par_n 指定线程数，或者实现自己的策略类。
异步并行：结合 std::async 与 std::future 实现异步并行。
任务优先级：在多核环境中，可使用 std::thread 的平台 API 给线程设置优先级，以满足实时性要求。
内存布局优化：在高并发环境下，使用 std::vector 的 shrink_to_fit() 或 reserve() 来避免重新分配。

7. 小结

std::execution 为 C++ 提供了一种简洁、标准化的并行编程模型，几乎不改变已有代码结构。
适合的算法：无副作用、可拆分、无顺序依赖。
性能提升：需要基准测试，正确的使用策略能显著提高吞吐量。
陷阱：共享写、异常、调试难度。

只要遵循上述原则，你可以在项目中轻松实现并行算法，从而充分利用现代 CPU 的多核能力，实现更高性能的 C++ 应用。祝你编码愉快！

发表评论取消回复