本帖最后由 胡言乱语阿瑞基 于 2024-11-14 16:48 编辑
伺服系统“伺服(Servo)”——词源于希腊语“奴隶”,意即“伺候”和“服从”。人们想把“伺服机构”当成一个得心应手的驯服工具,服从控制信号的要求而动作:在讯号来到之前,转子静止不动;讯号来到之后,转子立即转动;当讯号消失,转子能即时自行停转。由于它的“伺服”性能,因此而得名——伺服系统(servomechanism)。 一个伺服系统的构成包括被控对象、执行器、控制器和反馈。
经典的工业机器人框架在本体基座系下,以重复定位的方式开展工作,此为当前应用最为广泛的机器人应用范式。该范式通过机器人自身关节的反馈以及关节跟踪控制,可确保机器人在本体系下始终准确到达预先示教位置。目前,这一闭环技术已十分成熟。 运动伺服一般都是三环控制系统(串级PID),从内到外依次是电流环、速度环和位置环。电流环反应速度最快,速度环的反应速度必须高于位置环,否则将会造成电机运转的振动或反映不良,即电流环增益值高于速度环增益值,速度环增益值高于位置环增益值。伺服驱动器的设计可尽量确保电流环具备良好的反应性能,故用户只需调整位置环、速度环的增益即可。 第一环为电流环,最内环,此环完全在伺服驱动器内部进行,其PID常数已被设定,无需更改。电流环的输入是速度环PID调节后的输出,电流环的输出就是电机的每相的相电流。电流环的功能为对输入值和电流环反馈值的差值进行PD/PID调节。 电流环的反馈来自于驱动器内部每相的霍尔元件。电流闭环控制可以抑制起、制动电流,加速电流的响应过程。 第二环为速度环,中环。速度环的输入就是位置环PID调节后的输出以及位置设定的前馈值。电流环的功能为对输入值和速度环反馈值的差值(即速度差)进行PI调节。 速度环的反馈来自于编码器的反馈后的值经过“速度运算器”的计算后得到的。
第三环为位置环,最外环。位置环的输入就是外部的脉冲。位置环的功能为对输入值和位置环反馈值的差值(即滞留脉冲)进行P调节。 位置环的反馈来自于编码器反馈的脉冲信号经过“偏差计数器”的计算后得到的。位置调节器APR其输出限幅值是电流的最大值,决定着电动机的最高转速。
感知伺服感知伺服可以通过引入深度学习进而实现。从控制闭环视角看,在原重复定位闭环外增添新闭环,新闭环通过实时感知结果引导机器人,为内环重复定位控制提供从人工示教转为规划的结果。内外环协同可实现更宽泛应用模式即感知伺服。然而,当前框架中,内环重复定位工作多次,外环感知伺服仅工作一次,感知神经网络精度决定整体操作精度,对其识别和位置估计精度要求极高。若开始时感知网络目标与实际目标位置相差较远且考虑其他误差,仅一次感知伺服难以满足需求。由此提出能否让外环如内环般多次工作的问题,并思考引入强化学习或模仿学习技术进行策略的规划。经典控制理论中的视觉伺服通过将物体操作位置以视角图像形式表现,提出物体特征点,以控制办法使当前图像与预先视角图像下物体特征点吻合,从而实现机器人与物体相对位置一致,以在伺服外环中通过实时反馈引导内环位置控制。 经典视觉伺服控制算法存在一定弊端。其特征点在整个过程中无法保证时刻可见及被检测到,且经典控制算法难以适应多变的特征点,需人工设计可靠的特征检测器。另一方面,控制过程中线性化方法导致特征点绝对位置被忽略,此为基于线性化构建控制策略的局限性。鉴于此,考虑运用神经网络的模仿学习和强化学习手段予以弥补。可将经典视觉伺服控制器转变为基于神经网络的控制器,构建标准策略学习问题,目标为期望图像,观测为当前图像,奖励为伺服误差。对于观测表征,模仿经典视觉伺服方式,在参考视角图像与当前图像间进行特征点匹配,采用更自然、一般化的特征点匹配关系,用图网络(GNN)编码表示数量和位置可变、有时出现有时不出现的特征点观测。同时,构造仿真场景,利用众多三维资产进行不同排布、位置、姿态和布局,以训练该策略。经大规模训练后,通过零样本泛化在新场景及实物场景测试构建的策略,发现其在准确率和成功率上超越经典方法,主要得益于对特征要求更低且可采用更多特征数量,在收敛性上显著超过经典控制算法,充分体现了学习策略在大规模数据学习下的优越性。 于实际应用而言,除位置控制外,尚需关注其他控制目标,例如力觉控制。在实际场景中,工件可能存在公差小、视觉纹理弱等情况,仅靠视觉和位置控制难以满足精度要求。以经典装配任务插拔为例,如插头、接插件等操作,经典螺旋搜索策略存在成功率低、收敛效率差的问题。将其构建为强化学习问题时,面临接触力仿真困难的情况,若在真实环境中直接进行强化学习,又存在内环安全性差的问题。基于此,一方面借鉴视觉伺服思路,在每次插拔前,先在接插件附近用力觉进行扫描感知,形成以力作为每个像素取值的力的图像作为参考,与实时感知到的力进行比对,从而形成力觉伺服策略。通过这种表征,可实现不同插拔任务间的策略共享,提升强化学习的收敛效果。另一方面,在内环采用经典阻抗控制以保证工作安全,进而形成通用插拔策略。在该策略下,面对新的孔型,仅需几分钟的少量训练即可进行微调,实现高成功率。
在对位置伺服与力伺服进行介绍之后,我们开始思索在机器人控制闭环之中,除内环之外,其外环是否存在通用且一般化的方式。经深入理解该问题后发现,若将伺服进行一般化看待,外部所给予的示教操作位置能够体现为人类的一种意图,即期望达成的目标意图。另一方面,目标位置的反馈可被视作感知数据,亦可称为强化学习当中的观测数值。整个伺服的过程可以看作是促使感知数据不断向人类意图对齐的过程。在此框架之下审视视觉伺服,其将人类意图表征为图像,感知数据同样为图像,最终伺服所做之事为对齐图像。对于力觉伺服而言,可将人类意图理解为一种特定的力,如刚好插入时的力,而感知数据也可理解为实时反馈的力。力觉伺服策略实际上是在实现力层面的对齐。当在伺服策略中加入显性的意图表征之后,便可让外环实现对不同对象的泛化。若对此泛化进行对应,在经典的闭环控制中,其期望信号便对应了该意图。而若对应到强化学习的术语体系当中,此意图实际上就是强化学习的目标。由此,我们能够在伺服环上看到经典控制与强化学习之间存在的关联性。
|