Prof. Kim 2017. 5. 3. 09:20

* GPU는 ALU는 많고 control은 적음

* 생성한 thread들은 32개단위로 묶여서 같은 명령어를 처리함(병렬처리) (예전 GPU에서는 warp가 16개인경우도 있음)

* 그러니 branch divergence가 생기지 않게 하는 것도 필요하게 됨. 실제로는 중요도는 상대적으로 낮은편.