960路高清视频解码,480路智能解析
576路高清视频解码,288路智能解析
BM1684X,416路高清视频智能解析
X86主控,288路1080p高清视频智能解析
BM1684X,32路高清视频智能解析
BM1684,16路高清视频智能解析
BM1684,192路高清视频智能解析
BM1684,8路高清视频智能解析
CV186AH,8路高清视频智能解析
BM1688,16路高清视频智能解析
72路全高清硬解码与智能分析
96路全高清硬解码,48路智能分析
32路高清硬解码,16路智能分析
32路高清硬解码与智能分析
32路高清硬解码与智能分析
32路高清硬解码,16路智能分析
32路高清硬解码,16路智能分析
深度学习开发者产品组合
视频实时压缩转码上云和监测异常事件,增强道路运行安全事件的发现和处置能力
为交通拥堵、行车安全、车辆违法和道路污染治理问题赋能
以国产化算力支撑海量视频的结构化解析,服务警务应用实战
以数据为中心打造“智能、协同、高效、创新”的步态识别大数据分析系统
为用户快速构建融合人、车、通行等多维数据的业务能力
算能运用自研算力硬件设备SG6/SE5/SE6,搭载SOPHON.TEAM视频分析算法,助力工业安全生产智能化
为粮仓、棉仓等大型仓储园区的办公、质检、磅房、库区等区域提供了违规行为和异常事件的安全监控方案
算能联合SOPHON.TEAM生态伙伴打造烟草行业安全生产深度学习管控解决方案
算能联合SOPHON.TEAM生态伙伴,以自研国产化深度学习算力产品为硬件底座,构建安全生产管理体系,提高白酒企业安全生产管理水平
算能联合SOPHON.TEAM生态伙伴构建智算中心解决方案,建设统一管理和调度的云边协同的智算中心
算能联合SOPHON.TEAM生态共同构建了一套以自研国产化深度学习算力产品为硬件底座,以AutoML零代码自动化深度学习训练平台为基础,实现快速、高效的深度学习工程化落地
按照正常流程编程的话,比如按N切分,硬件所执行的流程为:搬入数据->计算数据->搬出数据->搬入数据->计算数据->....->搬出数据。而数据的搬运和数据的计算分别由GDMA和BDC控制,因此,当执行GDMA时,BDC为闲置状态,执行BDC时,GDMA为闲置状态。
因此,一个简单的想法是利用乒乓缓冲,达到同时使用GDMA和BDC的目的。
以上图为例:
(1) 搬入第一块的输入。
(2)计算第一块,同时搬入第二块的输入。
(3)搬出第一块的输出,搬入第一块的输入,同时计算第二块。
(4)搬出第二块的输出,搬入第二块的输入,计算第一块,之后重复(3)(4),直到运行结束,可以看到,除了开始和结束的搬运,之后所有时间内,GDMA和BDC都是同时工作的。
伪代码以 output=input+1.0 为例,通过奇偶性来控制访问的地址:
local_addr_t input_addr[2], output_addr[2];
for(int i=0; i<blocks+2; i++)
{
okk_parallel_start(); //标志开始并行
if(i<blocks)
S2L(input_addr[i%2], param->input_addr + i*input_skip_bytes); // 搬运数据
if(i>0 && i<blocks+1; i++)
add_one(output_addr[(i-1)%2], input[(i-1)%2]); // 计算上次搬运的数据
if(i>1)
L2S(param->output_addr + (i-2)*output_skip_bytes, output_addr[(i-2)%2]); //搬出上次计算好的数据
okk_parallel_end();
}
包含在okk_parallel_start()和okk_parallel_end()中的操作会被并行执行。更详细的代码见算丰文档。