GPU 与 CPU 区别

比较 GPU 和 CPU ，就是比较它们两者如何处理任务。如下图图 1-9 所示， CPU 使用几个核心处理单元去优化串行顺序任务，而 GPU 的大规模并行架构拥有数以千计的更小、更高效的处理单元，用于处理多个并行小任务。 CPU 拥有复杂的系统指令，能够进行复杂的任务操作和调度，两者是互补关系，而不能相互代替。

GPU 是大规模并行架构，处理并行任务毫无疑问是非常快的，深度学习需要高效的矩阵操作和大量的卷积操作， GPU 的并行架构再适合不过。简单来说，确实如此，但是为什么 GPU 进行矩阵操作和卷积操作会比 CPU 要快呢？真正原因是 GPU具有如下特性： (1) 高带宽

(2) 高速的缓存性能

(3) 并行单元多

在执行多任务时， CPU 需要等待带宽，而 GPU 能够优化带宽。举个简单的例子，我们可以把 CPU 看作跑车， GPU 是大卡车，如下图图 1-10 所示任务就是要把一堆货物从北京搬运到广州。 CPU（跑车〉可以快速地把数据（货物〉从内存读入 RAM 中，然而 GPU (大卡车〉装货的速度就好慢了。不过后面才是重点， CPU (跑车）把这堆数据（货物）从北京搬运到广州｜需要来回操作很多次，也就是往返京广线很多次，而 GPU (大卡车）只需要一次就可以完成搬运（一次可以装载大量数据进入内存）。换言之， CPU 擅长操作小的内存块，而 GPU 则擅长操作大的内存块。 CPU 集群大概可以达到 50GB/s 的带宽总量，而等量的 GPU 集群可以达到 750GB/s 的带宽量。

如果让一辆大卡车去装载很多堆货物，就要等待很长的时间了，因为要等待大卡车从北京运到广州，然后再回来装货物。设想一下，我们现在拥有了跑车车队和卡车车队（线程并行〉，运载一堆货物（非常大块的内存数据需要读入缓存，如大型矩阵）。我们会等待第一辆卡车，但是后面就不需要等待的时间了，因为在广州会有一队伍的大卡车正在排队输送货物（数据），这时处理器就可以直接从缓存中读取数据了。在线性并行的情况下， GPU 可以提供高带宽，从而隐藏延迟时间。这也就是GPU 比 CPU 更适合处理深度学习的原因。

比较 GPU 和 CPU ，就是比较它们两者如何处理任务。如下图图 1-9 所示， CPU 使用几个核心处理单元去优化串行顺序任务，而 GPU 的大规模并行架构拥有数以千计的更小、更高效的处理单元，用于处理多个并行小任务。 CPU 拥有复杂的系统指令，能够进行复杂的任务操作和调度，两者是互补关系，而不能相互代替。 GPU 是大规模并行架构，处理并行任务毫无疑问是非常快的，深度学习需要高效的矩阵操作和大量的卷积操作， GPU 的并行架构再适合不过。简单来说，确实如此，但是为什么 GPU 进行矩阵操作和卷积操作会比 CPU 要快呢？真正原因是 GPU具有如下特性： (1) 高带宽 (2) 高速的缓存性能 (3) 并行单元多在执行多任务时， CPU 需要等待带宽，而 GPU 能够优化带宽。举个简单的例子，我们可以把 CPU 看作跑车， GPU 是大卡车，如下图图 1-10 所示任务就是要把一堆货物从北京搬运到广州。 CPU（跑车〉可以快速地把数据（货物〉从内存读入 RAM 中，然而 GPU (大卡车〉装货的速度就好慢了。不过后面才是重点， CPU (跑车）把这堆数据（货物）从北京搬运到广州｜需要来回操作很多次，也就是往返京广线很多次，而 GPU (大卡车）只需要一次就可以完成搬运（一次可以装载大量数据进入内存）。换言之， CPU 擅长操作小的内存块，而 GPU 则擅长操作大的内存块。 CPU 集群大概可以达到 50GB/s 的带宽总量，而等量的 GPU 集群可以达到 750GB/s 的带宽量。如果让一辆大卡车去装载很多堆货物，就要等待很长的时间了，因为要等待大卡车从北京运到广州，然后再回来装货物。设想一下，我们现在拥有了跑车车队和卡车车队（线程并行〉，运载一堆货物（非常大块的内存数据需要读入缓存，如大型矩阵）。我们会等待第一辆卡车，但是后面就不需要等待的时间了，因为在广州会有一队伍的大卡车正在排队输送货物（数据），这时处理器就可以直接从缓存中读取数据了。在线性并行的情况下， GPU 可以提供高带宽，从而隐藏延迟时间。这也就是GPU 比 CPU 更适合处理深度学习的原因。

#16 GPU 与 CPU 区别