网页抓取工具

网页抓取工具

一个为大型语言模型提供网页内容提取服务的MCP服务器。

快速入门指南

本项目是一个网页抓取工具,支持从普通网页、YouTube 视频和 PDF 文件中提取内容。

功能

  • get_webpage_content: 提取普通网页的文字内容。
  • get_youtube_transcript: 提取 YouTube 视频的文字记录。
  • get_pdf: 将 PDF 文件转换为 Markdown 格式。

使用方法

  1. 克隆仓库:git clone https://github.com/saishridhar/webscraper.git
  2. 安装依赖:pip install -r requirements.txt
  3. 启动服务:python main.py
  4. 调用对应功能函数并传入 URL 参数即可。