CANN/ops-cv三维上采样反向算子-酒店常州论坛

aclnnUpsampleNearest3dBackward

【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv

📄 查看源码

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	×
Atlas 推理系列产品	×
Atlas 训练系列产品	√

功能说明

接口功能：aclnnUpsampleNearest3d的反向计算。
计算公式：
$$ gradInput(N, C, D, H, W) += gradOut( N, C, ceil ( scalesD * D ), ceil ( scalesH * H ), ceil ( scalesW * W )) $$

函数原型

每个算子分为两段式接口，必须先调用aclnnUpsampleNearest3dBackwardGetWorkspaceSize接口获取入参并根据计算流程计算所需workspace大小，再调用aclnnUpsampleNearest3dBackward接口执行计算。

aclnnStatus aclnnUpsampleNearest3dBackwardGetWorkspaceSize( const aclTensor *gradOut, const aclIntArray *outputSize, const aclIntArray *inputSize, double scalesD, double scalesH, double scalesW, aclTensor *gradInput, uint64_t *workspaceSize, aclOpExecutor **executor)

aclnnStatus aclnnUpsampleNearest3dBackward( void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnUpsampleNearest3dBackwardGetWorkspaceSize

参数说明

参数名	输入/输出	描述	使用说明	数据类型	数据格式	维度(shape)	非连续Tensor
gradOut（aclTensor*）	输入	表示反向计算的梯度Tensor，对应公式中的`gradOut`。	不支持空Tensor。	FLOAT32、FLOAT16、DOUBLE、BFLOAT16	NCDHW、NDHWC	5	√
outputSize（aclIntArray*）	输入	表示输入`gradOut`在D、H和W维度上的空间大小。	size为3，且各元素均大于零。	INT64	-	-	-
inputSize（aclIntArray*）	输入	表示输出`gradInput`的空间大小。	size为5，且最后两个元素均大于零。当输入`gradOut`的数据格式为NCDHW时，表示输出`gradInput`分别在N、C、D、H和W维度上的空间大小；当输入`gradOut`的数据格式为NDHWC时，表示输出`gradInput`分别在N、D、H、W和C维度上的空间大小。	INT64	-	-	-
scalesD（double）	输入	表示输出`gradInput`的depth维度乘数，对应公式中的`scalesD`。	-	-	-	-	-
scalesH（double）	输入	表示输出`gradInput`的height维度乘数，对应公式中的`scalesH`。	-	-	-	-	-
scalesW（double）	输入	表示输出`gradInput`的width维度乘数，对应公式中的`scalesW`。	-	-	-	-	-
gradInput（aclTensor*）	输出	表示反向计算的输出张量，对应公式中的`gradInput`。	不支持空Tensor。数据类型和数据格式与入参`gradOut`保持一致。	FLOAT32、FLOAT16、DOUBLE、BFLOAT16	NCDHW、NDHWC	5	√
workspaceSize（uint64_t*）	输出	返回用户需要在Device侧申请的workspace大小。	-	-	-	-	-
executor（aclOpExecutor**）	输出	返回op执行器，包含了算子计算流程。	-	-	-	-	-

返回值

aclnnStatus：返回状态码，具体参见aclnn返回码。

第一段接口完成入参校验，出现以下场景时报错：

返回码	错误码	描述
ACLNN_ERR_PARAM_NULLPTR	161001	如果传入参数是必选输入，输出或者必选属性，且是空指针。
ACLNN_ERR_PARAM_INVALID	161002	gradOut的数据类型不在支持的范围内。
		gradOut和gradInput的数据类型不一致。
		gradOut的维度不为5维。
		outputSize的size不等于3。
		outputSize的某个元素值不大于0。
		inputSize的size不等于5。
		inputSize的某个元素值不大于0。
		gradOut在D、H、W维度上的size与outputSize[0]、outputSize[1]、outputSize[2]不一致。
		gradInput在N、C维度的size与inputSize[0]、inputSize[1]不一致。
		gradInput在D、H、W维度上的size与inputSize[2]、inputSize[3]、inputSize[4]不一致。

aclnnUpsampleNearest3dBackward

参数说明

参数名	输入/输出	描述
workspace	输入	在Device侧申请的workspace内存地址。
workspaceSize	输入	在Device侧申请的workspace大小，由第一段接口aclnnUpsampleNearest3dBackwardGetWorkspaceSize获取。
executor	输入	op执行器，包含了算子计算流程。
stream	输入	指定执行任务的Stream。

返回值
aclnnStatus：返回状态码，具体参见aclnn返回码。

约束说明

参数gradOut、gradInput的shape约束：
- 每个维度的取值小于等于2^20。
- 参数gradInput的N轴和C轴与gradOut保持一致。
- 内存占用需小于60G。内存占用的计算公式如下：
  $$ N * C * (gradOut_D * gradOut_H * gradOut_W + gradInput_D * gradInput_H * gradInput_W + gradOut_D * gradOut_H * gradInput_W + gradOut_D * gradInput_H * gradInput_W) * sizeof(float) < 60 * 1024 * 1024 * 1024 $$
  其中：
  - N代表输入和输出的N轴。
  - C代表输入和输出的C轴。
- N * C * gradOut_D * gradOut_H < 2^31
- gradInput_W * gradInput_H < 2^31
参数gradOut、gradInput的数据格式不为NCDHW或NDHWC时，输入其他数据格式默认按NCDHW处理。
参数inputSize、outputSize、scalesD、scalesH、scalesW需要满足如下约束：
$$ outputSize_D = floor(inputSize_D * scalesD) $$
$$ outputSize_H = floor(inputSize_H * scalesH) $$
$$ outputSize_W = floor(inputSize_W * scalesW) $$
确定性计算：
- aclnnUpsampleNearest3dBackward默认确定性实现。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考编译与运行样例。

#include <iostream> #include <vector> #include "acl/acl.h" #include "aclnnop/aclnn_upsample_nearest_3d_backward.h" #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) int64_t GetShapeSize(const std::vector<int64_t>& shape) { int64_t shape_size = 1; for (auto i : shape) { shape_size *= i; } return shape_size; } int Init(int32_t deviceId, aclrtStream* stream) { // 固定写法，资源初始化 auto ret = aclInit(nullptr); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclInit failed. ERROR: %d\n", ret); return ret); ret = aclrtSetDevice(deviceId); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSetDevice failed. ERROR: %d\n", ret); return ret); ret = aclrtCreateStream(stream); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtCreateStream failed. ERROR: %d\n", ret); return ret); return 0; } template <typename T> int CreateAclTensor( const std::vector<T>& hostData, const std::vector<int64_t>& shape, void** deviceAddr, aclDataType dataType, aclTensor** tensor) { auto size = GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret = aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtMalloc failed. ERROR: %d\n", ret); return ret); // 调用aclrtMemcpy将host侧数据复制到device侧内存上 ret = aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtMemcpy failed. ERROR: %d\n", ret); return ret); // 计算连续tensor的strides std::vector<int64_t> strides(shape.size(), 1); for (int64_t i = shape.size() - 2; i >= 0; i--) { strides[i] = shape[i + 1] * strides[i + 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor = aclCreateTensor( shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_NCDHW, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { // 1. （固定写法）device/stream初始化，参考acl API手册 // 根据自己的实际device填写deviceId int32_t deviceId = 0; aclrtStream stream; auto ret = Init(deviceId, &stream); // check根据自己的需要处理 CHECK_RET(ret == 0, LOG_PRINT("Init acl failed. ERROR: %d\n", ret); return ret); // 2. 构造输入与输出，需要根据API的接口自定义构造 std::vector<int64_t> gradOutShape = {2, 2, 2, 2, 2}; std::vector<int64_t> gradInputShape = {2, 2, 1, 1, 1}; void* gradOutDeviceAddr = nullptr; void* gradInputDeviceAddr = nullptr; aclTensor* gradOut = nullptr; aclTensor* gradInput = nullptr; std::vector<float> gradOutHostData = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32}; std::vector<float> gradInputHostData = {2.0, 2, 2, 2}; std::vector<int64_t> outputSizeData = {2, 2, 2}; std::vector<int64_t> inputSizeData = {2, 2, 1, 1, 1}; double scalesD = 0.0; double scalesH = 0.0; double scalesW = 0.0; // 创建gradOut aclTensor ret = CreateAclTensor(gradOutHostData, gradOutShape, &gradOutDeviceAddr, aclDataType::ACL_FLOAT, &gradOut); CHECK_RET(ret == ACL_SUCCESS, return ret); // 创建gradInput aclTensor ret = CreateAclTensor(gradInputHostData, gradInputShape, &gradInputDeviceAddr, aclDataType::ACL_FLOAT, &gradInput); CHECK_RET(ret == ACL_SUCCESS, return ret); const aclIntArray* outputSize = aclCreateIntArray(outputSizeData.data(), outputSizeData.size()); CHECK_RET(outputSize != nullptr, return ACL_ERROR_INTERNAL_ERROR); const aclIntArray* inputSize = aclCreateIntArray(inputSizeData.data(), inputSizeData.size()); CHECK_RET(inputSize != nullptr, return ACL_ERROR_INTERNAL_ERROR); // 3. 调用CANN算子库API，需要修改为具体的API uint64_t workspaceSize = 0; aclOpExecutor* executor; // 调用aclnnUpsampleNearest3dBackward第一段接口 ret = aclnnUpsampleNearest3dBackwardGetWorkspaceSize( gradOut, outputSize, inputSize, scalesD, scalesH, scalesW, gradInput, &workspaceSize, &executor); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnUpsampleNearest3dBackwardGetWorkspaceSize failed. ERROR: %d\n", ret); return ret); // 根据第一段接口计算出的workspaceSize申请device内存 void* workspaceAddr = nullptr; if (workspaceSize > 0) { ret = aclrtMalloc(&workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("allocate workspace failed. ERROR: %d\n", ret); return ret;); } // 调用aclnnUpsampleNearest3dBackward第二段接口 ret = aclnnUpsampleNearest3dBackward(workspaceAddr, workspaceSize, executor, stream); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnUpsampleNearest3dBackward failed. ERROR: %d\n", ret); return ret); // 4. （固定写法）同步等待任务执行结束 ret = aclrtSynchronizeStream(stream); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSynchronizeStream failed. ERROR: %d\n", ret); return ret); // 5. 获取输出的值，将device侧内存上的结果复制至host侧，需要根据具体API的接口定义修改 auto size = GetShapeSize(gradInputShape); std::vector<float> resultData(size, 0); ret = aclrtMemcpy( resultData.data(), resultData.size() * sizeof(resultData[0]), gradInputDeviceAddr, size * sizeof(float), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("copy result from device to host failed. ERROR: %d\n", ret); return ret); for (int64_t i = 0; i < size; i++) { LOG_PRINT("result[%ld] is: %f\n", i, resultData[i]); } // 6. 释放aclTensor和aclScalar，需要根据具体API的接口定义修改 aclDestroyTensor(gradOut); aclDestroyTensor(gradInput); // 7. 释放device资源，需要根据具体API的接口定义修改 aclrtFree(gradOutDeviceAddr); aclrtFree(gradInputDeviceAddr); if (workspaceSize > 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }

【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析

aclnnUpsampleNearest3dBackward

产品支持情况

功能说明

函数原型

aclnnUpsampleNearest3dBackwardGetWorkspaceSize

aclnnUpsampleNearest3dBackward

约束说明

调用示例

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

aclnnUpsampleNearest3dBackward

产品支持情况

功能说明

函数原型

aclnnUpsampleNearest3dBackwardGetWorkspaceSize

aclnnUpsampleNearest3dBackward

约束说明

调用示例

热门文章

文章分类

标签云

相关文章

3.1 一个真实的反思——我们公司在研发上花了不少钱，感觉还是工具

AI时代知识工作转型：从生产到批判性整合的核心能力构建

DS4Windows终极指南：让PS4手柄在Windows上焕发新生

需要专业的网站建设服务？