结构决定 gpu 更适合并行计算,gpu 与 cpu 主要区别在于片内的缓存体系和数字逻辑运算单元的结构差异:gpu核(尤其alu运算单元)的数量远超cpu但是结构较cpu简单,因此被称为众核结构。众核结构非常适合把同样的指令流并行发送到众核上,采用不同的输入数据执行,从而完成图形处理中的海量简单操作,如对每一个顶点进行同样的坐标变换,对每一个顶点按照同样的光照模型计算颜色值。gpu 利用自身处理海量数据的优势,通过提高总的数据吞吐量(throughput)来弥补执行时间(latency)长的缺点。

参考观研天下发布《》
矢量化编程与强大并行计算能力相契合,gpu 成为深度学习模型训练首选方案。矢量化((如矩阵相乘、矩阵相加、矩阵-向量乘法等)编程是提高算法速度的一种有效方法,深度学习中反向传播算法、 auto-encoder、卷积神经网络等都可以写成矢量的形式。cpu处理矢量运算方式为展开循环的串行执行,而 gpu 的众核体系结构包含几千个流处理器,可将矢量运算并行执行,大幅缩短计算时间。利用 gpu 对海量数据进行训练,所耗费的时间大幅缩短,占用的服务器也更少。


gpu 行业格局:由于amd在通用计算及生态圈构建的长期缺位,深度学习 gpu 加速市场目前呈现 nvidia 一家独大的局面。根据 mercury research的统计,目前在“pc 工作器 服务器”独立gpu领域nvidia市占率接近70%。直到17年amd才正式推出radeon instinct系列产品,主要面向深度学习和 hpc 数据中心应用。



【金沙下载送彩金的版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在金沙下载送彩金的版权问题,烦请提供金沙下载送彩金的版权疑问、身份证明、金沙下载送彩金的版权证明、金沙下载送彩金的联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。
