一、引言

二、向量体系结构 Vector Architecture

1. 原理简介

2. 向量执行时间 Vector Execution Time

3. 多车道 Multiple Lanes:每个时钟周期超过一个元素

4. 向量长度寄存器 Vector-Length Registers:处理不等于 64 的循环

5. 向量遮罩寄存器 Predicate Registers:处理 IF 语句

6. 内存组 Memory Banks:提供带宽

7. 步幅 Stride:处理多维数组

8. 集中-分散 Gather-Scatter:处理稀疏矩阵

三、SIMD 指令集多媒体扩展

四、GPU

1. GPU 编程 CUDA