作为强化学习的对照,本节中实现一个智能体,该智能体在迷宫中以随机搜索的方式朝目标前进。

强化学习的主要构成要素包括:智能体、环境、行动、奖励。

强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,主要用于时变系统控制规则构建和对战博弈策略构建。

半监督分类是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷。

无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习。但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到,这就促使能同时利用标记样本和未标记样本的半监督学习技术迅速发展起来。
0%