OmniParser 自动化 GUI 工具

OmniParser 自动化 GUI 工具

通过 OmniParser 分析屏幕并自动操作 GUI 的工具。

快速入门

  1. 克隆仓库并安装依赖:

    git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
    cd omniparser-autogui-mcp
    uv sync
    set OCR_LANG=en
    uv run download_models.py
    

    (非 Windows 系统使用 export 替代 set

  2. 配置 claude_desktop_config.json 文件:

    {
      "mcpServers": {
        "omniparser_autogui_mcp": {
          "command": "uv",
          "args": [
            "--directory",
            "D:\\CLONED_PATH\\omniparser-autogui-mcp",
            "run",
            "omniparser-autogui-mcp"
          ],
          "env": {
            "PYTHONIOENCODING": "utf-8",
            "OCR_LANG": "en"
          }
        }
      }
    }
    

    (将路径替换为实际克隆目录)

  3. 可选环境变量配置:

    • TARGET_WINDOW_NAME: 指定操作窗口名称。
    • OMNI_PARSER_SERVER: 使用远程 OmniParser 服务。
    • 更多配置参考 README。
  4. 启动后即可在屏幕上搜索和自动化操作。