sii_web_fetch - 网页内容获取
概述
sii_web_fetch 工具使用 SII 后端服务处理 URL 中的内容,包括本地和私有网络地址(如 localhost)。可以在提示中嵌入最多 20 个 URL 和指令(如总结、提取特定数据)。
工具名称
- 内部名称:
sii_web_fetch - 显示名称: SII Web Fetch
- 图标: 下载 (Download)
前置条件
使用此工具需要:
- SII 账户:需要有效的 SII 账户
- 环境变量:
SII_USERNAME: SII 用户名SII_PASSWORD: SII 密码SII_BASE_URL: SII 后端 URL(可选,默认为https://www.opensii.ai/backend)
参数
必需参数
| 参数名 | 类型 | 说明 |
|---|---|---|
prompt | string | 包含 URL(最多 20 个)和如何处理其内容的具体指令的综合提示(例如:"总结 https://example.com/article 并从 https://another.com/data 提取关键点")。必须包含至少一个以 http:// 或 https:// 开头的 URL。 |
功能说明
多 URL 支持:
- 一次处理最多 20 个 URL
- 支持 HTTP 和 HTTPS 协议
- 支持本地和私有网络地址
内容处理:
- 自动获取网页内容
- 支持各种内容类型
- 智能内容提取
灵活的指令:
- 总结内容
- 提取特定信息
- 比较多个页面
- 自定义处理逻辑
本地网络支持:
- 支持 localhost
- 支持私有 IP 地址
- 适用于本地开发和测试
使用场景
- 获取和总结网页文章
- 提取网页中的特定数据
- 比较多个网页的内容
- 分析本地开发服务器的页面
- 批量处理多个 URL 的内容
使用示例
总结单个网页
json
{
"prompt": "总结这篇文章的主要内容:https://example.com/article"
}提取特定信息
json
{
"prompt": "从 https://example.com/products 提取所有产品名称和价格"
}处理多个 URL
json
{
"prompt": "比较以下三篇文章的观点:https://site1.com/article1, https://site2.com/article2, https://site3.com/article3"
}本地开发服务器
json
{
"prompt": "分析 http://localhost:3000 的首页内容,列出所有导航链接"
}复杂的数据提取
json
{
"prompt": "从 https://example.com/docs 提取所有 API 端点的文档,包括请求方法、参数和响应格式"
}内容对比
json
{
"prompt": "对比 https://old-site.com 和 https://new-site.com 的首页,列出主要差异"
}返回结果
工具返回一个包含以下字段的对象:
llmContent: 处理后的内容returnDisplay: 用户友好的显示信息summary: 操作摘要sources: 处理的 URL 列表
示例输出
已处理 2 个 URL 的内容:
1. https://example.com/article
主要内容:
- 介绍了 AI 技术的最新进展
- 讨论了大语言模型的应用
- 展望了未来发展趋势
2. https://example.com/data
关键数据点:
- 用户增长:150%
- 活跃用户:10万+
- 满意度:95%
来源:
[1] https://example.com/article
[2] https://example.com/data错误处理
可能的错误情况:
认证错误:
- 缺少 SII 凭据
- 用户名或密码错误
- Token 过期
URL 错误:
- 提示中没有 URL
- URL 格式不正确
- URL 数量超过 20 个
网络错误:
- 无法访问 URL
- 连接超时
- DNS 解析失败
内容错误:
- 页面不存在(404)
- 访问被拒绝(403)
- 服务器错误(500)
配置
环境变量设置
在使用工具前,需要设置以下环境变量:
bash
# Linux/macOS
export SII_USERNAME="your_username"
export SII_PASSWORD="your_password"
# Windows (PowerShell)
$env:SII_USERNAME="your_username"
$env:SII_PASSWORD="your_password"
# Windows (CMD)
set SII_USERNAME=your_username
set SII_PASSWORD=your_password自定义后端 URL
如果需要使用自定义的 SII 后端:
bash
export SII_BASE_URL="https://custom.sii.ai/backend"最佳实践
清晰的指令:
- ✅ "总结文章的主要观点并列出关键数据"
- ❌ "看看这个页面"
合理的 URL 数量:
- 单个任务不要超过 5-10 个 URL
- 过多 URL 可能导致处理时间过长
具体的提取要求:
- 明确指定需要提取的信息类型
- 提供示例格式(如果需要)
处理本地 URL:
- 确保本地服务器正在运行
- 使用正确的端口号
错误处理:
- 检查返回的错误信息
- 验证 URL 的可访问性
性能考虑
处理时间:
- 单个 URL:1-3 秒
- 多个 URL:根据数量线性增加
- 复杂页面可能需要更长时间
内容大小:
- 大型页面处理较慢
- 可能有内容大小限制
并发限制:
- 注意 API 调用频率限制
- 避免短时间内大量请求
与其他工具的集成
与 sii_web_search 结合
1. 使用 sii_web_search 查找相关网页
2. 使用 sii_web_fetch 获取详细内容与 sii_cognition_extract_upload 结合
1. 使用 sii_web_fetch 获取内容
2. 使用 sii_cognition_extract_upload 提取并保存认知与 read_file 结合
1. 使用 sii_web_fetch 获取在线文档
2. 使用 read_file 读取本地文档
3. 比较和整合信息支持的内容类型
HTML 页面:
- 网页文章
- 博客文章
- 文档页面
API 响应:
- JSON 数据
- XML 数据
- 纯文本
本地服务:
- 开发服务器
- 本地 API
- 测试环境
隐私和安全
数据传输:
- 使用 HTTPS 加密传输
- 不存储敏感信息
访问控制:
- 遵守网站的 robots.txt
- 尊重访问限制
本地网络:
- 谨慎处理私有网络内容
- 不要泄露内部信息
限制和注意事项
- URL 数量限制:最多 20 个 URL
- 内容大小限制:可能有单页内容大小限制
- 访问限制:某些网站可能阻止自动访问
- JavaScript 渲染:可能不支持需要 JavaScript 渲染的页面
- 认证页面:不支持需要登录的页面
故障排除
无法访问 URL
- 检查 URL 是否正确
- 验证网络连接
- 确认 URL 可公开访问
认证失败
- 检查环境变量设置
- 验证用户名和密码
- 尝试重新登录
内容提取不完整
- 检查页面是否需要 JavaScript
- 尝试更具体的提取指令
- 考虑使用其他工具
相关工具
sii_web_search: 搜索网页sii_hybrid_search: 混合搜索(网络 + 认知库)sii_cognition_extract_upload: 提取和上传认知read_file: 读取本地文件
总结
sii_web_fetch 是一个强大的工具,可以获取和处理网页内容,支持多个 URL 和灵活的处理指令。通过合理使用这个工具,可以高效地从网络上获取和分析信息。
记住:提供清晰的指令,合理控制 URL 数量,并注意隐私和安全问题。
