一、引言
二、向量体系结构 Vector Architecture
1. 原理简介
2. 向量执行时间 Vector Execution Time
3. 多车道 Multiple Lanes:每个时钟周期超过一个元素
4. 向量长度寄存器 Vector-Length Registers:处理不等于 64 的循环
5. 向量遮罩寄存器 Predicate Registers:处理 IF 语句
6. 内存组 Memory Banks:提供带宽
7. 步幅 Stride:处理多维数组
8. 集中-分散 Gather-Scatter:处理稀疏矩阵
三、SIMD 指令集多媒体扩展
四、GPU
1. GPU 编程 CUDA