计算机体系结构笔记08：Superscalar and VLIW

scalar pipeline 的性能极限是 CPI=IPC=1，但限于 hazards 也无法达到
multiple issues -> superscalar

要多套硬件同时执行多条指令（指令级并行 ILP），需要检查它们的依赖关系
寄存器调度，并行度取决于 workload
目前大部分是 4 inst/cycle

取指时遇到的问题：

solution：

后端的问题：

VLIW: very long inst word 多个操作封装进一条指令
constant operation latencies are specified
完全靠编译器确保一条指令里没有依赖

编译器要：

software pipelining：loop 内部 iteration 之间重叠
每次 iteration 分配一个新的 reg set -> rotating register file

没有 loop 时 trace scheduling：找到一条 hot flow paths，合并途径的 block，其他分支增加 repair code

VLIW 的问题：

Superscalar vs. VLIW
superscalar 硬件和调度比较复杂，但可以 handle 动态的 unpredictable 指令流；
VLIW 完全依赖编译器调度，硬件简单，适用于静态和 predictable 指令流。