a: action 动作
链接://zhuanlan.zhihu.com/yuandong/20607684 来源:知乎
训练集数据: KGS 专业棋手(5-9段)的棋谱, 大概16万局棋, 3千万种棋盘状态
学习到一个预测模型 g
深度学习: Convolutional Neural Network (CNN), 卷积神经网络
另用线性模型训练快速策略
当前版本的策略网络 与 随机的一个版本
胜 z_t = +1, 负= -1, 未结束=0
输入状态S, 经过
胜负作为输出
学到价值网络, 判断该盘面的输赢概率
把随机算法分成两类:
当前盘面状态
对 每条边(状态s, 动作a)
局部特征匹配(local pattern matching)加线性回归(logistic regression)