sii_web_fetch - 网页内容获取

概述

sii_web_fetch 工具使用 SII 后端服务处理 URL 中的内容，包括本地和私有网络地址（如 localhost）。可以在提示中嵌入最多 20 个 URL 和指令（如总结、提取特定数据）。

工具名称

内部名称: sii_web_fetch
显示名称: SII Web Fetch
图标: 下载 (Download)

前置条件

使用此工具需要：

SII 账户：需要有效的 SII 账户
环境变量：
- SII_USERNAME: SII 用户名
- SII_PASSWORD: SII 密码
- SII_BASE_URL: SII 后端 URL（可选，默认为 https://www.opensii.ai/backend）

参数

必需参数

参数名	类型	说明
`prompt`	string	包含 URL（最多 20 个）和如何处理其内容的具体指令的综合提示（例如："总结 https://example.com/article 并从 https://another.com/data 提取关键点"）。必须包含至少一个以 http:// 或 https:// 开头的 URL。

功能说明

多 URL 支持：
- 一次处理最多 20 个 URL
- 支持 HTTP 和 HTTPS 协议
- 支持本地和私有网络地址
内容处理：
- 自动获取网页内容
- 支持各种内容类型
- 智能内容提取
灵活的指令：
- 总结内容
- 提取特定信息
- 比较多个页面
- 自定义处理逻辑
本地网络支持：
- 支持 localhost
- 支持私有 IP 地址
- 适用于本地开发和测试

使用场景

获取和总结网页文章
提取网页中的特定数据
比较多个网页的内容
分析本地开发服务器的页面
批量处理多个 URL 的内容

使用示例

总结单个网页

json

{
  "prompt": "总结这篇文章的主要内容：https://example.com/article"
}

提取特定信息

json

{
  "prompt": "从 https://example.com/products 提取所有产品名称和价格"
}

处理多个 URL

json

{
  "prompt": "比较以下三篇文章的观点：https://site1.com/article1, https://site2.com/article2, https://site3.com/article3"
}

本地开发服务器

json

{
  "prompt": "分析 http://localhost:3000 的首页内容，列出所有导航链接"
}

复杂的数据提取

json

{
  "prompt": "从 https://example.com/docs 提取所有 API 端点的文档，包括请求方法、参数和响应格式"
}

内容对比

json

{
  "prompt": "对比 https://old-site.com 和 https://new-site.com 的首页，列出主要差异"
}

返回结果

工具返回一个包含以下字段的对象：

llmContent: 处理后的内容
returnDisplay: 用户友好的显示信息
summary: 操作摘要
sources: 处理的 URL 列表

示例输出

已处理 2 个 URL 的内容：

1. https://example.com/article
   主要内容：
   - 介绍了 AI 技术的最新进展
   - 讨论了大语言模型的应用
   - 展望了未来发展趋势

2. https://example.com/data
   关键数据点：
   - 用户增长：150%
   - 活跃用户：10万+
   - 满意度：95%

来源：
[1] https://example.com/article
[2] https://example.com/data

错误处理

可能的错误情况：

认证错误：
- 缺少 SII 凭据
- 用户名或密码错误
- Token 过期
URL 错误：
- 提示中没有 URL
- URL 格式不正确
- URL 数量超过 20 个
网络错误：
- 无法访问 URL
- 连接超时
- DNS 解析失败
内容错误：
- 页面不存在（404）
- 访问被拒绝（403）
- 服务器错误（500）

配置

环境变量设置

在使用工具前，需要设置以下环境变量：

bash

# Linux/macOS
export SII_USERNAME="your_username"
export SII_PASSWORD="your_password"

# Windows (PowerShell)
$env:SII_USERNAME="your_username"
$env:SII_PASSWORD="your_password"

# Windows (CMD)
set SII_USERNAME=your_username
set SII_PASSWORD=your_password

自定义后端 URL

如果需要使用自定义的 SII 后端：

bash

export SII_BASE_URL="https://custom.sii.ai/backend"

最佳实践

清晰的指令：
- ✅ "总结文章的主要观点并列出关键数据"
- ❌ "看看这个页面"
合理的 URL 数量：
- 单个任务不要超过 5-10 个 URL
- 过多 URL 可能导致处理时间过长
具体的提取要求：
- 明确指定需要提取的信息类型
- 提供示例格式（如果需要）
处理本地 URL：
- 确保本地服务器正在运行
- 使用正确的端口号
错误处理：
- 检查返回的错误信息
- 验证 URL 的可访问性

性能考虑

处理时间：
- 单个 URL：1-3 秒
- 多个 URL：根据数量线性增加
- 复杂页面可能需要更长时间
内容大小：
- 大型页面处理较慢
- 可能有内容大小限制
并发限制：
- 注意 API 调用频率限制
- 避免短时间内大量请求

与其他工具的集成

与 sii_web_search 结合

1. 使用 sii_web_search 查找相关网页
2. 使用 sii_web_fetch 获取详细内容

与 sii_cognition_extract_upload 结合

1. 使用 sii_web_fetch 获取内容
2. 使用 sii_cognition_extract_upload 提取并保存认知

与 read_file 结合

1. 使用 sii_web_fetch 获取在线文档
2. 使用 read_file 读取本地文档
3. 比较和整合信息

支持的内容类型

HTML 页面：
- 网页文章
- 博客文章
- 文档页面
API 响应：
- JSON 数据
- XML 数据
- 纯文本
本地服务：
- 开发服务器
- 本地 API
- 测试环境

隐私和安全

数据传输：
- 使用 HTTPS 加密传输
- 不存储敏感信息
访问控制：
- 遵守网站的 robots.txt
- 尊重访问限制
本地网络：
- 谨慎处理私有网络内容
- 不要泄露内部信息

限制和注意事项

URL 数量限制：最多 20 个 URL
内容大小限制：可能有单页内容大小限制
访问限制：某些网站可能阻止自动访问
JavaScript 渲染：可能不支持需要 JavaScript 渲染的页面
认证页面：不支持需要登录的页面

故障排除

无法访问 URL

检查 URL 是否正确
验证网络连接
确认 URL 可公开访问

认证失败

检查环境变量设置
验证用户名和密码
尝试重新登录

内容提取不完整

检查页面是否需要 JavaScript
尝试更具体的提取指令
考虑使用其他工具

总结

sii_web_fetch 是一个强大的工具，可以获取和处理网页内容，支持多个 URL 和灵活的处理指令。通过合理使用这个工具，可以高效地从网络上获取和分析信息。

记住：提供清晰的指令，合理控制 URL 数量，并注意隐私和安全问题。

sii_web_fetch - 网页内容获取 ​

概述 ​

工具名称 ​

前置条件 ​

参数 ​

必需参数 ​

功能说明 ​

使用场景 ​

使用示例 ​

总结单个网页 ​

提取特定信息 ​

处理多个 URL ​

本地开发服务器 ​

复杂的数据提取 ​

内容对比 ​

返回结果 ​

示例输出 ​

错误处理 ​

配置 ​

环境变量设置 ​

自定义后端 URL ​

最佳实践 ​

性能考虑 ​

与其他工具的集成 ​

与 sii_web_search 结合 ​

与 sii_cognition_extract_upload 结合 ​

与 read_file 结合 ​

支持的内容类型 ​

隐私和安全 ​

限制和注意事项 ​

故障排除 ​

无法访问 URL ​

认证失败 ​

内容提取不完整 ​

相关工具 ​

总结 ​

sii_web_fetch - 网页内容获取

概述

工具名称

前置条件

参数

必需参数

功能说明

使用场景

使用示例

总结单个网页

提取特定信息

处理多个 URL

本地开发服务器

复杂的数据提取

内容对比

返回结果

示例输出

错误处理

配置

环境变量设置

自定义后端 URL

最佳实践

性能考虑

与其他工具的集成

与 sii_web_search 结合

与 sii_cognition_extract_upload 结合

与 read_file 结合

支持的内容类型

隐私和安全

限制和注意事项

故障排除

无法访问 URL

认证失败

内容提取不完整

相关工具

总结