换肤
  • 浅蓝
  • 墨绿
  • 棕黄
  • 青色

OPE亚运会 > OPE亚运会 > OPE亚运会

学界 OpenAI MiniWoB环境介绍:与网站交互的强化学习代理基准
时间:2018-10-10 11:47 来源:未知 作者:OPE亚运会 点击:

  原标题:学界 OpenAI MiniWoB环境介绍:与网站交互的强化学习代理基准

  Mini World of Bits,简称 MiniWoB,是一个用于与网站交互的强化学习代理的基准。其代理可以感知小网页(210x160 像素)的原始像素和产生键盘和鼠标动作。

  该环境用 HTML/Java/CSS 写成,设计的目的是为了测试代理与常见网页浏览器元素的交互能力,这些元素包括按钮、文本框、滑块、日期选择器等等。这个基准的环境可以通过 OpenAI Universe 获取。

  其中的每一个环境都是一个 210 像素高、160 像素宽的 HTML 网页(即与 ATARI ALE 模拟器的尺寸相同)。其最顶上的 50 个像素(黄色背景)包含了任务查询——一个关于代理应该在坏境所做的事情的描述。该环境的逻辑是用 Java 编写的,其会监控事件并分配奖励(reward)。我们认为 MiniWoB 就类似于是视觉识别领域的 MNIST 数据集,其中的这些环境很小、是自包含的(self-contained)、并且含有许多代理在浏览互联网时需要克服的挑战。

  该基准中的任务包含许多常见的 UI 元素,范围涵盖从简单(比如点击取消按钮)到复杂(比如,搜索从 SFO 到 LAX 的 2016 年 12 月 5 日的航班并预定最便宜的机票)等各种难度。

  MiniWoB 基准包含了一系列训练/测试分开的环境。其终极目标是在无需太多交互步骤的情况下在测试环境上良好地执行任务。被测试的模型可以在训练环境中进行不限次数的预训练。我们也计划发布训练环境的演示,因为许多模型如果仅靠强化学习,可能难以取得良好的效果。

  贡献环境。因为该环境目前还非常小,而且也很容易通过 Java/HTML/CSS 书写,所以我们也鼓励社区为未来该基准的发行版提供贡献。

  MiniWoB 的完整源代码将在未来几周通过 GitHub 发布,所以贡献也将变得非常方便。

  为了训练强化学习代理,我们调整了运行 MiniWoB 环境的 Universe 指令。下面的简单代码可以用来创建一个可以以 5 FPS 的速度在 MiniWoB 的 160x160 像素的「游戏」区域随机点击的代理:



上一篇:OPE体育 西甲联赛首轮C罗走了大圣扛旗
下一篇:OPE体育赛事:穆帅:你知道什么叫尊重吗?

注册新账号用户登录