网页抓取工具

一个为大型语言模型提供网页内容提取服务的MCP服务器。

快速入门指南

本项目是一个网页抓取工具，支持从普通网页、YouTube 视频和 PDF 文件中提取内容。

功能

get_webpage_content: 提取普通网页的文字内容。
get_youtube_transcript: 提取 YouTube 视频的文字记录。
get_pdf: 将 PDF 文件转换为 Markdown 格式。

使用方法

克隆仓库：git clone https://github.com/saishridhar/webscraper.git
安装依赖：pip install -r requirements.txt
启动服务：python main.py
调用对应功能函数并传入 URL 参数即可。