栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

2021-10-17 2.1

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

2021-10-17 2.1

# nA为动作空间数量, T为进行的总时间步
def epsilon_greedy(nA, R, T, epsilon=0.6):
    r = 0  # 初始化累计奖励r
    N = [0] * nA  # 对动作空间进行全零初始化

    for _ in range(T):
        if np.random.rand() < epsilon:
            a = np.random.randint(q_value.shape[0])
        else:
            a = np.argmax(q_value)

        v = R(a)
        r = r + v
        q_value[a] = (q_value[a] * N[a] + v) / (N[a] + 1)
        N[a] += 1
    return r
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/331353.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号