个人对这些名词的粗浅理解和区别,不太全面,仅供参考。
有监督:用有标签的数据训练无监督:用无标签的数据训练; 半监督:用有标记和无标记的数据进行训练。 最近非常热,这个领域的发展也非常快。 以前通常是两个阶段的训练,首先用(小)标记数据训练Teacher模型,用该模型(大)对未标记数据预测伪标记,作为Student模型的训练数据。 目前有很多直接的端对端训练,大大减少了半监督训练的工作; 自我监控:接下来是下游任务,例如用未标记的数据进行训练,用几种方法让模型学习数据的inner representation,并将mlp添加为分类器。 但是,在接受下游任务后,也需要对特定的标记数据进行finetune。 但是,您可能可以选择完全固定前一层,只对后续网络中的参数执行finetune。 弱监督:用含噪声的加标签数据训练。 以上各概念的分类并不严格排他。