重磅预告:本专栏将独家连载新书《AI视觉技术:从入门到进阶》精华内容。本书是《AI视觉技术:从进阶到专家》的权威前导篇,特邀美国 TypeOne 公司首席科学家、斯坦福大学博士 Bohan 担任技术顾问。Bohan先生师从美国三院院士、“AI教母”李飞飞教授,学术引用量在近四年内突破万次,是全球AI与机器人视觉领域的标杆性人物(type-one.com)。全书共分6篇22章,严格遵循“基础—原理—实操—进阶—赋能—未来”的六步进阶逻辑,致力于引入“类人智眼”新范式,系统破解从“数字世界”到“物理世界”、从理论认知到产业落地的核心难题。该书精彩内容将优先在本专栏陆续发布,其纸质专著亦将正式出版。敬请关注!
前沿技术背景介绍:AI智能体视觉(TVA,Transformer-based Vision Agent)是依托Transformer架构与“因式智能体”理论所构建的颠覆性工业视觉技术,属于“物理AI” 领域的一种全新技术形态,实现了从数字世界到物理世界的历史性跨越。它区别于传统计算机视觉和普通AI视觉技术,代表了工业智能化转型与视觉检测模式的根本性重构。 在实质内涵上,TVA是一种复合概念,是集深度强化学习(DRL)、卷积神经网络(CNN)、因式分解算法(FRA)于一体的系统工程框架,构建了能够“感知-推理-决策-行动-反馈”的迭代运作闭环,完成从“看见”到“看懂”的范式突破,不仅被业界誉为“AI视觉品控专家”,而且也是机器人视觉与运动控制系统的关键技术支撑。
版权声明:本文系作者原创首发于 CSDN 的技术类文章,受《中华人民共和国著作权法》保护,转载或商用敬请注明出处。
(接上篇)
3.2 数字图像基础
视觉检测技术的核心是通过图像获取目标对象的特征信息,进而实现识别、测量、缺陷检测等功能,而数字图像作为视觉检测的处理对象,其基础特性直接决定了后续处理的效果与精度。本节将从图像的表示、灰度图与彩色图的区别、图像分辨率与尺寸三个核心维度,讲解数字图像的基础概念,为后续图像处理算法的学习奠定基础。
3.2.1 图像的表示
在视觉检测系统中,我们所处理的图像均为数字图像,其本质是将现实中的连续图像(如物体表面纹理、缺陷区域)通过采样和量化过程,转化为计算机可识别的离散像素矩阵。简单来说,数字图像可以看作是由无数个微小的“像素点”组成的网格,每个像素点对应图像中的一个最小单位,承载着该位置的亮度或颜色信息。
从数学角度来看,数字图像可表示为一个二维数组(灰度图)或三维数组(彩色图)。对于二维灰度图像,若其宽度为M像素、高度为N像素,则可表示为一个N×M的矩阵$$I$$,矩阵中的每个元素$$I(i,j)$$代表第i行、第j列像素的灰度值,其中i的取值范围为0~N-1,j的取值范围为0~M-1(计算机中通常从0开始计数)。例如,一张100×100像素的灰度图,对应一个100行、100列的矩阵,共10000个像素点,每个像素点的灰度值决定了该位置的明暗程度。
需要注意的是,数字图像的坐标体系与传统数学坐标系有所区别:图像的原点(0,0)通常位于左上角,横轴为j轴(宽度方向),纵轴为i轴(高度方向),向下为i轴正方向,向右为j轴正方向。这种坐标设定与计算机屏幕的显示逻辑一致,便于图像的存储与显示。
在视觉检测中,图像的表示方式直接影响后续的特征提取:例如,缺陷检测中,缺陷区域与正常区域的灰度值差异,会体现在矩阵元素的数值差异上;尺寸测量中,像素点的坐标关系的,可转化为实际物理尺寸的对应关系。因此,理解数字图像的矩阵表示,是掌握视觉检测算法的基础。
3.2.2 灰度图与彩色图
根据像素点承载的颜色信息不同,数字图像可分为灰度图和彩色图两大类,两者在视觉检测中的应用场景各有侧重,需根据检测需求选择合适的图像类型。
灰度图是最基础、最常用的图像类型,其每个像素点仅包含一个灰度值,用于表示该位置的明暗程度,灰度值的取值范围通常为0~255(8位量化),其中0代表纯黑色,255代表纯白色,中间的数值从0到255依次对应从黑到白的渐变灰度。在视觉检测中,灰度图应用广泛,尤其是在缺陷检测(如金属表面划痕、零件表面凹陷)、尺寸测量等场景中,灰度图能够有效突出目标与背景的明暗差异,降低图像处理的复杂度,提高检测效率。例如,检测玻璃表面的划痕时,划痕区域的灰度值与玻璃正常区域的灰度值存在明显差异,通过提取灰度特征即可快速识别划痕位置。
彩色图则是通过多个通道的颜色信息组合,呈现出真实的色彩效果。常见的彩色图表示方式有RGB模式、HSV模式等,其中RGB模式是计算机中最常用的模式,其每个像素点由红(R)、绿(G)、蓝(B)三个通道的数值组成,每个通道的取值范围同样为0~255,三个通道的不同数值组合,可形成数百万种不同的颜色。例如,纯红色对应R=255、G=0、B=0,纯白色对应R=255、G=255、B=255,纯黑色对应R=0、G=0、B=0。
在视觉检测中,彩色图主要用于需要区分颜色特征的场景,例如,产品表面的颜色缺陷检测(如塑料件的色差、印刷品的颜色偏差)、物料分类(如不同颜色的零件分拣)等。需要注意的是,彩色图的处理复杂度高于灰度图,因为其包含三个通道的信息,通常需要先将彩色图转化为灰度图(通过通道融合,如$$I = 0.299R + 0.587G + 0.114B$$),再进行后续的检测处理,除非颜色是核心检测特征。
此外,还有二值图(黑白图),可看作是灰度图的一种特殊形式,其像素值仅为0(黑色)和255(白色)两种,主要用于目标轮廓提取、简单缺陷分割等场景,例如,将零件轮廓从背景中分离出来,便于后续的尺寸测量。(待续)
写在最后——以TVA重新定义视觉技术的理论内核与能力边界
本文重点阐述了数字图像基础理论,包括灰度图与彩色图的数学表示、特性差异及工业应用场景选择。作为视觉检测核心技术的基础章节,内容覆盖图像矩阵表示、坐标体系、通道转换等核心概念,为后续图像处理算法学习奠定理论基础。