## 1. 模型效果 微软亚洲研究院提出的 OCRNet 方法的主要思想是显式地把像素分类问题转化成物体区域分类问题,这与语义分割问题的原始定义是一致的,即每一个像素的类别就是该像素属于的物体的类别。 下图中对比了基于 ASPP 的多尺度上下文信息与基于 OCR 的物体上下文信息的区别。对选定的红色标记的像素,用蓝色来标记其对应的上下文信息。可以看到基于 ASPP 的多尺度上下文信息通常会包含不属于红色像素所属类别的像素,左图中采样到的蓝色标记的像素有一部分落在了人的身体上,还有一部分像素落在了后面的展板上。因此,这样的多尺度信息同时包含了物体信息与背景信息。而基于 OCR 的物体上下文信息的目标是只利用物体信息,即显式地增强物体信息。 <div align=center> <img width="472" alt="截屏2023-03-24 14 24 54" src="https://user-images.githubusercontent.com/114470934/227442187-a0297156-538a-462e-82a8-0d47555bcf32.png"> </div> 更多关于PaddleSeg的内容,可以点击 [PaddleSeg 仓库](https://github.com/PaddlePaddle/PaddleSeg) 进行了解。