Skip to content

sii_web_fetch - 网页内容获取

概述

sii_web_fetch 工具使用 SII 后端服务处理 URL 中的内容,包括本地和私有网络地址(如 localhost)。可以在提示中嵌入最多 20 个 URL 和指令(如总结、提取特定数据)。

工具名称

  • 内部名称: sii_web_fetch
  • 显示名称: SII Web Fetch
  • 图标: 下载 (Download)

前置条件

使用此工具需要:

  1. SII 账户:需要有效的 SII 账户
  2. 环境变量
    • SII_USERNAME: SII 用户名
    • SII_PASSWORD: SII 密码
    • SII_BASE_URL: SII 后端 URL(可选,默认为 https://www.opensii.ai/backend

参数

必需参数

参数名类型说明
promptstring包含 URL(最多 20 个)和如何处理其内容的具体指令的综合提示(例如:"总结 https://example.com/article 并从 https://another.com/data 提取关键点")。必须包含至少一个以 http:// 或 https:// 开头的 URL。

功能说明

  1. 多 URL 支持

    • 一次处理最多 20 个 URL
    • 支持 HTTP 和 HTTPS 协议
    • 支持本地和私有网络地址
  2. 内容处理

    • 自动获取网页内容
    • 支持各种内容类型
    • 智能内容提取
  3. 灵活的指令

    • 总结内容
    • 提取特定信息
    • 比较多个页面
    • 自定义处理逻辑
  4. 本地网络支持

    • 支持 localhost
    • 支持私有 IP 地址
    • 适用于本地开发和测试

使用场景

  • 获取和总结网页文章
  • 提取网页中的特定数据
  • 比较多个网页的内容
  • 分析本地开发服务器的页面
  • 批量处理多个 URL 的内容

使用示例

总结单个网页

json
{
  "prompt": "总结这篇文章的主要内容:https://example.com/article"
}

提取特定信息

json
{
  "prompt": "从 https://example.com/products 提取所有产品名称和价格"
}

处理多个 URL

json
{
  "prompt": "比较以下三篇文章的观点:https://site1.com/article1, https://site2.com/article2, https://site3.com/article3"
}

本地开发服务器

json
{
  "prompt": "分析 http://localhost:3000 的首页内容,列出所有导航链接"
}

复杂的数据提取

json
{
  "prompt": "从 https://example.com/docs 提取所有 API 端点的文档,包括请求方法、参数和响应格式"
}

内容对比

json
{
  "prompt": "对比 https://old-site.com 和 https://new-site.com 的首页,列出主要差异"
}

返回结果

工具返回一个包含以下字段的对象:

  • llmContent: 处理后的内容
  • returnDisplay: 用户友好的显示信息
  • summary: 操作摘要
  • sources: 处理的 URL 列表

示例输出

已处理 2 个 URL 的内容:

1. https://example.com/article
   主要内容:
   - 介绍了 AI 技术的最新进展
   - 讨论了大语言模型的应用
   - 展望了未来发展趋势

2. https://example.com/data
   关键数据点:
   - 用户增长:150%
   - 活跃用户:10万+
   - 满意度:95%

来源:
[1] https://example.com/article
[2] https://example.com/data

错误处理

可能的错误情况:

  1. 认证错误

    • 缺少 SII 凭据
    • 用户名或密码错误
    • Token 过期
  2. URL 错误

    • 提示中没有 URL
    • URL 格式不正确
    • URL 数量超过 20 个
  3. 网络错误

    • 无法访问 URL
    • 连接超时
    • DNS 解析失败
  4. 内容错误

    • 页面不存在(404)
    • 访问被拒绝(403)
    • 服务器错误(500)

配置

环境变量设置

在使用工具前,需要设置以下环境变量:

bash
# Linux/macOS
export SII_USERNAME="your_username"
export SII_PASSWORD="your_password"

# Windows (PowerShell)
$env:SII_USERNAME="your_username"
$env:SII_PASSWORD="your_password"

# Windows (CMD)
set SII_USERNAME=your_username
set SII_PASSWORD=your_password

自定义后端 URL

如果需要使用自定义的 SII 后端:

bash
export SII_BASE_URL="https://custom.sii.ai/backend"

最佳实践

  1. 清晰的指令

    • ✅ "总结文章的主要观点并列出关键数据"
    • ❌ "看看这个页面"
  2. 合理的 URL 数量

    • 单个任务不要超过 5-10 个 URL
    • 过多 URL 可能导致处理时间过长
  3. 具体的提取要求

    • 明确指定需要提取的信息类型
    • 提供示例格式(如果需要)
  4. 处理本地 URL

    • 确保本地服务器正在运行
    • 使用正确的端口号
  5. 错误处理

    • 检查返回的错误信息
    • 验证 URL 的可访问性

性能考虑

  1. 处理时间

    • 单个 URL:1-3 秒
    • 多个 URL:根据数量线性增加
    • 复杂页面可能需要更长时间
  2. 内容大小

    • 大型页面处理较慢
    • 可能有内容大小限制
  3. 并发限制

    • 注意 API 调用频率限制
    • 避免短时间内大量请求

与其他工具的集成

与 sii_web_search 结合

1. 使用 sii_web_search 查找相关网页
2. 使用 sii_web_fetch 获取详细内容

与 sii_cognition_extract_upload 结合

1. 使用 sii_web_fetch 获取内容
2. 使用 sii_cognition_extract_upload 提取并保存认知

与 read_file 结合

1. 使用 sii_web_fetch 获取在线文档
2. 使用 read_file 读取本地文档
3. 比较和整合信息

支持的内容类型

  1. HTML 页面

    • 网页文章
    • 博客文章
    • 文档页面
  2. API 响应

    • JSON 数据
    • XML 数据
    • 纯文本
  3. 本地服务

    • 开发服务器
    • 本地 API
    • 测试环境

隐私和安全

  1. 数据传输

    • 使用 HTTPS 加密传输
    • 不存储敏感信息
  2. 访问控制

    • 遵守网站的 robots.txt
    • 尊重访问限制
  3. 本地网络

    • 谨慎处理私有网络内容
    • 不要泄露内部信息

限制和注意事项

  1. URL 数量限制:最多 20 个 URL
  2. 内容大小限制:可能有单页内容大小限制
  3. 访问限制:某些网站可能阻止自动访问
  4. JavaScript 渲染:可能不支持需要 JavaScript 渲染的页面
  5. 认证页面:不支持需要登录的页面

故障排除

无法访问 URL

  1. 检查 URL 是否正确
  2. 验证网络连接
  3. 确认 URL 可公开访问

认证失败

  1. 检查环境变量设置
  2. 验证用户名和密码
  3. 尝试重新登录

内容提取不完整

  1. 检查页面是否需要 JavaScript
  2. 尝试更具体的提取指令
  3. 考虑使用其他工具

相关工具

  • sii_web_search: 搜索网页
  • sii_hybrid_search: 混合搜索(网络 + 认知库)
  • sii_cognition_extract_upload: 提取和上传认知
  • read_file: 读取本地文件

总结

sii_web_fetch 是一个强大的工具,可以获取和处理网页内容,支持多个 URL 和灵活的处理指令。通过合理使用这个工具,可以高效地从网络上获取和分析信息。

记住:提供清晰的指令,合理控制 URL 数量,并注意隐私和安全问题。

Released under the MIT License.