【AI达人养成营】飞桨领航团图像处理入门基础学习笔记

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

L Liberon 发布于2021-12

本次课程主要学习了图像处理的概念与基本操作，OpenCV库进阶操作。

一、基本概念：

像素：画面中最小的点。像素的大小是没有固定长度的，不同设备上一个单位像素色块的大小是不一样。

灰度值与光学三原色（RGB）：红、绿、蓝(靛蓝)。光学三原色混合后，组成像素点的显示颜色，三原色同时相加为白色，白色属于无色系（黑白灰）中的一种。

分辨率=画面水平方向的像素值 * 画面垂直方向的像素值。

屏幕分辨率：纵横向上的像素点数，单位是px。

图像分辨率：图像单位英寸中所包含的像素数。

常见图片格式：jpg、png、gif、psd、tiff、bmp等。

OpenCV是计算机视觉中经典的专用库，其支持多语言、跨平台，功能强大。

二、使用OpenCV

加载图片，显示图片，保存图片

OpenCV函数：cv2.imread(), cv2.imshow(), cv2.imwrite()

加载图片：
使用cv2.imread()来读入一张图片

参数1：图片的文件名

参数2：读入方式，省略即采用默认值

cv2.IMREAD_COLOR：彩色图，默认值(1)
cv2.IMREAD_GRAYSCALE：灰度图(0)
cv2.IMREAD_UNCHANGED：包含透明通道的彩色图（-1）

注：路径中不能有中文，并且没有加载成功的话是不会报错的，print(img)的结果为None，后面处理才会报错。

ROI
ROI：Region of Interest，感兴趣区域。。

截取ROI非常简单，指定图片的范围即可

通道分割与合并
彩色图的BGR三个通道是可以分开单独访问的，也可以将单独的三个通道合并成一副图像。分别使用cv2.split()和cv2.merge()：

颜色空间转换
最常用的颜色空间转换如下：

RGB或BGR到灰度（COLOR_RGB2GRAY，COLOR_BGR2GRAY）
RGB或BGR到YcrCb（或YCC）（COLOR_RGB2YCrCb，COLOR_BGR2YCrCb）
RGB或BGR到HSV（COLOR_RGB2HSV，COLOR_BGR2HSV）
RGB或BGR到Luv（COLOR_RGB2Luv，COLOR_BGR2Luv）
灰度到RGB或BGR（COLOR_GRAY2RGB，COLOR_GRAY2BGR）

颜色转换其实是数学运算，如灰度化最常用的是：gray=R*0.299+G*0.587+B*0.114。

特定颜色物体追踪：
HSV是一个常用于颜色识别的模型，相比BGR更易区分颜色，转换模式用COLOR_BGR2HSV表示。

注：OpenCV中色调H范围为[0,179]，饱和度S是[0,255]，明度V是[0,255]。虽然H的理论数值是0°~360°，但8位图像像素点的最大值是255，所以OpenCV中除以了2，某些软件可能使用不同的尺度表示，所以同其他软件混用时，记得归一化。

阈值分割
使用固定阈值、自适应阈值和Otsu阈值法"二值化"图像
OpenCV函数：cv2.threshold(), cv2.adaptiveThreshold()
固定阈值分割
固定阈值分割很直接，一句话说就是像素点值大于阈值变成一类值，小于阈值变成另一类值。

cv2.threshold()用来实现阈值分割，ret是return value缩写，代表当前的阈值。函数有4个参数：

参数1：要处理的原图，一般是灰度图
参数2：设定的阈值
参数3：最大阈值，一般为255
参数4：阈值的方式，主要有5种，详情：ThresholdTypes0: THRESH_BINARY 当前点值大于阈值时，取Maxval,也就是第四个参数，否则设置为0
1: THRESH_BINARY_INV 当前点值大于阈值时，设置为0，否则设置为Maxval
2: THRESH_TRUNC 当前点值大于阈值时，设置为阈值，否则不改变
3: THRESH_TOZERO 当前点值大于阈值时，不改变，否则设置为0
4:THRESH_TOZERO_INV 当前点值大于阈值时，设置为0，否则不改变

自适应阈值
固定阈值是在整幅图片上应用一个阈值进行分割，它并不适用于明暗分布不均的图片。 cv2.adaptiveThreshold()自适应阈值会每次取图片的一小部分计算阈值，这样图片不同区域的阈值就不尽相同。它有5个参数：

参数1：要处理的原图
参数2：最大阈值，一般为255
参数3：小区域阈值的计算方式ADAPTIVE_THRESH_MEAN_C：小区域内取均值
ADAPTIVE_THRESH_GAUSSIAN_C：小区域内加权求和，权重是个高斯核
参数4：阈值方式（跟前面讲的那5种相同）
参数5：小区域的面积，如11就是11*11的小块
参数6：最终阈值等于小区域计算出的阈值再减去此值

Otsu阈值：
在前面固定阈值中，会不断尝试阈值效果好不好，所以这种方法在很多文献中都被称为经验阈值。Otsu阈值法就提供了一种自动高效的二值化方法。

结：cv2.threshold()用来进行固定阈值分割。固定阈值不适用于光线不均匀的图片，所以用 cv2.adaptiveThreshold()进行自适应阈值分割。
二值化跟阈值分割并不等同。针对不同的图片，可以采用不同的阈值方法。

图像几何变换
实现旋转、平移和缩放图片
OpenCV函数：cv2.resize(), cv2.flip(), cv2.warpAffine()

缩放：调整图片的大小，使用cv2.resize()函数实现缩放。以按照比例缩放，也可以按照指定的大小缩放：我们也可以指定缩放方法interpolation

缩放过程中有五种插值方式：

cv2.INTER_NEAREST 最近邻插值
cv2.INTER_LINEAR 线性插值
cv2.INTER_AREA 基于局部像素的重采样，区域插值
cv2.INTER_CUBIC 基于邻域4x4像素的三次插值
cv2.INTER_LANCZOS4 基于8x8像素邻域的Lanczos插值

翻转图片：
镜像翻转图片，可以用cv2.flip()函数

平移图片：
要平移图片，我们需要定义下面这样一个矩阵，tx,ty是向x和y方向平移的距离：

M=[10tx01ty] M = \left[ \begin{matrix} 1 & 0 & t_x \newline 0 & 1 & t_y \end{matrix} \right]M=[10tx01ty]

平移是用仿射变换函数cv2.warpAffine()实现的。

绘图功能
绘制各种几何形状、添加文字
OpenCV函数：cv2.line(), cv2.circle(), cv2.rectangle(), cv2.ellipse(), cv2.putText()
绘制形状的函数有一些共同的参数。

img：要绘制形状的图片
color：绘制的颜色彩色图就传入BGR的一组值，如蓝色就是(255,0,0)
灰度图，传入一个灰度值就行
thickness：线宽，默认为1；对于矩形/圆之类的封闭形状而言，传入-1表示填充形状
lineType：线的类型。默认情况下，它是8连接的。cv2.LINE_AA 是适合曲线的抗锯齿线。

画线
画直线只需指定起点和终点的坐标就行。

添加文字
使用cv2.putText()添加文字，它的参数也比较多，同样请对照后面的代码理解这几个参数：

参数2：要添加的文本
参数3：文字的起始坐标（左下角为起点）
参数4：字体
参数5：文字大小（缩放比例）

结：cv2.line()画直线，

cv2.circle()画圆，

cv2.rectangle()画矩形，

cv2.ellipse()画椭圆，

cv2.polylines()画多边形，

cv2.putText()添加文字。
画多条直线时，cv2.polylines()要比cv2.line()高效很多。
要在图像中打上中文，可以用PIL库结合OpenCV实现。

图像间数学运算
图片间的数学运算，如相加、按位运算等
OpenCV函数：cv2.add(), cv2.addWeighted(), cv2.bitwise_and()
图片相加
要叠加两张图片，可以用cv2.add()函数，相加两幅图片的形状（高度/宽度/通道数）必须相同。numpy中可以直接用res = img + img1相加，但这两者的结果并不相同。

图像混合
图像混合cv2.addWeighted()也是一种图片相加的操作，只不过两幅图片的权重不一样，γ相当于一个修正值：

dst=α×img1+β×img2+γdst = \alpha\times img1+\beta\times img2 + \gammadst=α×img1+β×img2+γ

平滑图像
模糊/平滑图片来消除图片噪声
OpenCV函数：cv2.blur(), cv2.GaussianBlur(), cv2.medianBlur(), cv2.bilateralFilter()

均值滤波、方框滤波、高斯滤波、中值滤波、双边滤波、图像锐化。

边缘检测：
OpenCV函数：cv2.Canny()

Canny边缘检测方法常被誉为边缘检测的最优方法：cv2.Canny()。

注：用低通滤波的方式模糊了图片，那反过来，想得到物体的边缘，就需要用到高通滤波。

腐蚀与膨胀：OpenCV函数：cv2.erode(), cv2.dilate(), cv2.morphologyEx()

形态学操作其实就是改变物体的形状，比如腐蚀就是"变瘦"，膨胀就是"变胖"。

注：形态学操作一般作用于二值化图，来连接相邻的元素或分离成独立的元素。腐蚀和膨胀是针对图片中的白色部分！
腐蚀。

开/闭运算：
先腐蚀后膨胀叫开运算，其作用是：分离物体，消除小区域。这类形态学操作用cv2.morphologyEx()函数实现

使用OpenCV摄像头与加载视频：

OpenCV函数：cv2.VideoCapture(), cv2.VideoWriter()

使用cv2.VideoCapture()创建视频对象，然后在循环中一帧帧显示图像。参数传入数字时，代表打开摄像头，传入本地视频路径时，表示播放本地视频。
cap.get(propId)获取视频属性，cap.set(propId,value)设置视频属性。
cv2.VideoWriter()创建视频写入对象，用来录制/保存视频。

三、图像分类：

Image Classification：图像分类，用于识别图像中物体的类别。
Object Localization：目标检测，用于检测图像中每个物体的类别，并准确标出它们的位置。
Semantic Segmentation：图像语义分割，用于标出图像中每个像素点所属的类别，属于同一类别的像素点用一个颜色标识。
Instance Segmentation：实例分割，值得注意的是，目标检测任务只需要标注出物体位置，实例分割任务不仅要标注出物体位置，还需要标注出物体的外形轮廓。

经典数据集：ImageNet数据集、Cifar数据集、MNIST手写数字识别

例题：

1、图像翻转
按照以下条件翻转图像
水平翻转
竖直翻转

保存的文件名为1-1.png和1-2.png(也可以输出图片)

代码：

import numpy as np
import matplotlib.pyplot as plt
from PIL import Image

path = "baidu_bear.png" # 图片路径
image = Image.open(path)
image = np.array(image)
#在下面补充相关代码
import cv2
p1=cv2.flip(image,1)
plt.imshow(p1)
p2=cv2.flip(image,0)
plt.imshow(p2)

2、图像裁剪
按照以下条件裁剪图像
长度方向
宽度方向
俩个方向同时裁剪
随机裁剪的图片（大小设定随意）

保存的文件名为2-1.png、2-2.png、2-3.png、2-4.png(也可以输出图片)

代码：

import numpy as np
import matplotlib.pyplot as plt
from PIL import Image

path = "baidu_bear.png" # 图片路径
image = Image.open(path) #读取图片
image = np.array(image)
#在下面补充相关代码
import cv2
#image.shape (435, 580, 3)
p1= image[0:435, 0:400]
plt.imshow(p1)
p2= image[0:300, 0:580]
plt.imshow(p2)
p3= image[0:300, 0:400]
plt.imshow(p3)
p3= image[0:300, 0:400]
plt.imshow(p3)
import random
x1=random.randint(0,580)
x2=random.randint(x1,580)
y1=random.randint(0,435)
y2=random.randint(y1,435)
p4=image[y1:y2, x1:x2]
plt.imshow(p4)