OmniParser 自动化 GUI 工具
通过 OmniParser 分析屏幕并自动操作 GUI 的工具。
快速入门
-
克隆仓库并安装依赖:
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git cd omniparser-autogui-mcp uv sync set OCR_LANG=en uv run download_models.py
(非 Windows 系统使用
export
替代set
) -
配置
claude_desktop_config.json
文件:{ "mcpServers": { "omniparser_autogui_mcp": { "command": "uv", "args": [ "--directory", "D:\\CLONED_PATH\\omniparser-autogui-mcp", "run", "omniparser-autogui-mcp" ], "env": { "PYTHONIOENCODING": "utf-8", "OCR_LANG": "en" } } } }
(将路径替换为实际克隆目录)
-
可选环境变量配置:
TARGET_WINDOW_NAME
: 指定操作窗口名称。OMNI_PARSER_SERVER
: 使用远程 OmniParser 服务。- 更多配置参考 README。
-
启动后即可在屏幕上搜索和自动化操作。