本文的用了双胞胎网络,通过不同的patch_size,关注不同尺寸的信息,然后利用TIF模块进行融合。
所以核心创新点为两点:第一,通过不同的patch_size关注不同尺度的信息,第二,通过TIF融合信息。
TIF模块如图所示,就是把对方的特征图进行平均池化,然后作为加到对方拉平后的特征图尾部,进行transformer计算
同时,swin transformer部分如上图所示,attention模块不再是关注全局,而是分两步,每一步每个patch都只考虑周围的几个patch进行计算,SW-MSA的区别是会对图像整体往左上移动,消失的部分从右边和下面冒出来,然后计算MSA。具体操作见这篇文章:
因篇幅问题不能全部显示,请点此查看更多更全内容
怀疑对方AI换脸可以让对方摁鼻子 真人摁下去鼻子会变形
女子野生动物园下车狼悄悄靠近 后车司机按喇叭提醒
睡前玩8分钟手机身体兴奋1小时 还可能让你“变丑”
惊蛰为啥吃梨?倒春寒来不来就看惊蛰
男子高速犯困开智能驾驶出事故 60万刚买的奔驰严重损毁