-
-
0获课 ♥》http://www.bcwit.top/13941/ 底层筑基:通过 CUDA 并行计算模型解析,建立 GPU 架构认知(SIMT/SIMD、显存层次结构、核函数执行模型); 工具精通:深入 TensorRT 全流程优化(FP16/INT8 量化、层融合、动态 shape 支持、插件开发); 实战攻坚:围绕图像分类(ResNet)、目标检测(YOLOv5)、语义分割(U-Net)三大典型任务,完成从模型转换到部署上线的全链路实操; 工程拓展:覆盖多卡并行策略(Collective Communication)、端侧部署(Jetson 平台)、服务化封
-
0获课♥》789it。top/13843/ CUDA C/C++编程核心概念解析内核函数与线程层次 CUDA编程模型的核心是内核函数(kernel function),这是一种在GPU上并行执行的函数。与传统C/C++函数不同,内核函数由大量线程并行执行,这些线程被组织成具有层次结构的网格(grid)、块(block)和线程(thread)三个级别。 线程层次结构的设计反映了GPU的硬件执行模型: 网格(Grid):最高层次的线程组织,包含多个线程块 线程块(Block):中间层次的线程组,块内的线程可以协作 线程(Thread):最基
-
0下栽课🖤》youkeit.xyz/13854/ 在深度学习和高性能计算领域,CUDA和TensorRT是两个至关重要的工具。CUDA提供了强大的并行计算能力,而TensorRT则专注于深度学习模型的优化和加速推理。掌握这两项技能,不仅能提升模型的性能,还能显著提高开发效率。以下是一些提升CUDA与TensorRT技能的实用建议。 一、从基础开始:理解核心概念 (一)CUDA基础 了解CUDA架构:熟悉CUDA的基本架构,包括线程、线程块、网格等概念,以及它们如何在GPU上并行执行计算任务。 掌
-
3
-
0为什么我下载路径安装CUDA后,C盘的CUDA的文件夹直接消失了?[lbk]笑哭[rbk]
-
0官网里10.2的下载按钮没了,有没有大佬有安装包或其他方法的,电脑显卡驱动版本最高就支持10.2
-
0
-
0
-
2
-
5
-
1
-
1
-
3
-
4
-
3我是纯新手,想试着学学那本《动手学深度学习》,但是我发现自己连第一步安装都搞不定……有没有人愿意连麦教教我……50¥够不够……
-
0大佬们,我在做一款软件,要求低延迟采集裁剪后的屏幕画面,目前用dxgi截图,但是dxgi是经历过整个屏幕ui的拷贝的,cuda能不能直接访问渲染后的软件ui画面?我想将截图方式改为指定软件截图,这样来提高截图速度
-
5线上答疑,英语要好,985/211本科大三以上,研究生更好
-
1
-
3
-
0wsl2可以嘛?
-
2
-
0本人大学生,刚学机器学习相关课程,想问一下,就是只要对应的环境里的库是cuda版本,比如torch cuda的,就可以直接使用吗?需要代码上进行额外设置吗?还是只要检测到环境里的库是cuda版本就会直接用GPU?
-
4我想验证这个载板上的算力,网上的一些方法都不太行。有大佬帮忙吗?
-
2如题,想请教一下如果有一个二维数组data[M][N],想求它在某个维度上的argmax,有没有什么好的使用CUDA加速的办法?最简单的办法是把某一个维度分配到block上然后用for循环去求,但是感觉这种做法没有充分利用GPU。更进一步的如果源数组是一个有很多维度的tensor,如data[N1][N2][N3][...][Nk]这种,有没有什么高效的办法实现这个函数?
-
1编译的时候静态断言了,原因是Unexpected compiler version, expected CUDA 12.4 or newer. 但是我的CUDA版本明明已经是14.6了。 想知道如何解决
-
7
-
1
-
0今天写代码时发现用cudamemcpy把25M个数据点从gpu向cpu中复制时,发现非常耗时,需要50多秒,注释掉前面两句trust::inclusive_scan和trust::copy后发现只需要几十毫秒,请问大佬这个问题怎么解决,inclusive_scan是实现代码功能必须要有的用来计算前缀和的代码,实际应用不能注释掉。问ai说是可能是由于内存碎片化导致的?应该怎么解决?
-
0
-
0
-
3
-
1在Linux上安装CUDA,前面都很顺利,Ubuntu20.04+CUDA11.7,最后安装的时候如图,说nvidia-芭芭拉-OUbuntu1不是官方软件包,怎么办呀
-
2
-
3
-
1
-
4
-
16
-
0531.14版本的驱动应该是测试版吧?全网都搜不到这个版本的驱动了。 531.18的驱动能不能搭配531.14的安装包?
-
2#define LEFT_ROW 1000 #define LEFT_COL 2400 #define RIGHT_ROW 2400 #define RIGHT_COL 1000 #define RES_ROW 1000 #define RES_COL 1000 #define LENGTH 32 __global__ void multiMatrix(int** left, int** right, int** result) { int x_pos = blockIdx.x * blockDim.x + threadIdx.x; int y_pos = blockIdx.y * blockDim.y + threadIdx.y; if (x_pos < LEFT_COL && y_pos < RIGHT_ROW) { for (int k = 0; k < LEFT_ROW; k++) { result[x_pos][y_pos] += left[x_pos][k] * right[k][y_pos]; } } } int main(void) { int** arr_left; int** arr_right; int** cpu_result; int** gpu_result; cudaMallocManaged((void**)&
-
1开始用的cudaevent计时,现在想尝试用Nsight System分析,目前在cuda api以及kernel下找到了核函数的事件,请问哪个才是准确的运行时间。但两者都和使用cudaevent存在时间差距,这个差距怎么理解,感谢大佬回答!
-
1
-
0在文件sumArraysOnGPU-timer.cu中,设置block.x=1 023,重新编译并运行。与执行配置为block.x=1 024的运行结果进行比较,试着解释其区别和原因。
-
1
-
2
-
2各位大佬好,如果我有两段等长数据,想要在device上找到第一段数据中的最大值,记录下索引(有多个相等最大值就记录所有索引),然后找到第二段数据中符合索引的元素的最大值和它的索引(如果有多个要任意一个就行)。之前每个数据作为寄存器变量遇到了同步的问题。数据段长度在每次循环会变(循环也在device上)而且最大可能会占用4*10^8个字节。请问各位大佬有什么好办法吗?就是数据放在哪一级内存中用什么算法比较好之类的。谢谢。
-
1terminate called after throwing an instance of 'thrust::system::system_error' > what(): after reduction step 1: cudaErrorInvalidDeviceFunction: invalid device function
-
0