网页抓取工具
一个为大型语言模型提供网页内容提取服务的MCP服务器。
快速入门指南
本项目是一个网页抓取工具,支持从普通网页、YouTube 视频和 PDF 文件中提取内容。
功能
- get_webpage_content: 提取普通网页的文字内容。
- get_youtube_transcript: 提取 YouTube 视频的文字记录。
- get_pdf: 将 PDF 文件转换为 Markdown 格式。
使用方法
- 克隆仓库:
git clone https://github.com/saishridhar/webscraper.git
- 安装依赖:
pip install -r requirements.txt
- 启动服务:
python main.py
- 调用对应功能函数并传入 URL 参数即可。