Skip to content

sii_cognition_extract_upload - 认知提取与上传

概述

sii_cognition_extract_upload 工具从网页 URL(包括 YouTube 视频)提取认知信息并上传到 SII 后端。自动分析内容,生成结构化的认知数据(支持双语),保存到认知数据库,并可选择将原始内容保存到本地文件。支持 YouTube 转录提取和各种内容类型。

工具名称

  • 内部名称: sii_cognition_extract_upload
  • 显示名称: SII Cognition Extract & Upload
  • 图标: 上传云 (CloudUpload)

前置条件

使用此工具需要:

  1. SII 账户:需要有效的 SII 账户
  2. 环境变量
    • SII_USERNAME: SII 用户名
    • SII_PASSWORD: SII 密码
    • SII_BASE_URL: SII 后端 URL(可选)

参数

必需参数

参数名类型说明
urlstring要提取认知的 URL。必须是有效的 HTTP/HTTPS URL。

可选参数

参数名类型默认值说明
language_preferencestring"auto"输出的语言偏好:"zh"(中文)、"en"(英文)或 "auto"(自动检测)
sourcestring-内容来源的可选描述(例如:"技术博客"、"学术论文")
custom_promptstring-可选的自定义提示,用于指导提取过程(例如:"重点关注技术细节")
save_raw_contentbooleanfalse是否将提取的原始内容保存到本地文件

功能说明

  1. 内容提取

    • 自动获取网页内容
    • 支持 YouTube 视频转录
    • 提取关键信息
  2. 认知生成

    • 分析内容结构
    • 生成问题和答案
    • 创建摘要和关键点
    • 支持中英文双语
  3. 数据上传

    • 保存到 SII 认知库
    • 结构化存储
    • 可搜索和检索
  4. 本地保存

    • 可选保存原始内容
    • 便于后续参考
    • 支持离线访问

使用场景

  • 从技术博客提取知识点
  • 保存 YouTube 教程的关键内容
  • 归档学术论文的核心观点
  • 建立个人知识库
  • 团队知识共享

使用示例

基本提取

json
{
  "url": "https://example.com/article"
}

指定语言

json
{
  "url": "https://example.com/article",
  "language_preference": "zh"
}

添加来源信息

json
{
  "url": "https://techblog.com/ai-tutorial",
  "source": "技术博客",
  "language_preference": "zh"
}

自定义提取重点

json
{
  "url": "https://example.com/deep-learning-paper",
  "custom_prompt": "重点关注模型架构和实验结果",
  "language_preference": "zh"
}

保存原始内容

json
{
  "url": "https://example.com/important-article",
  "save_raw_content": true,
  "source": "重要文章"
}

YouTube 视频提取

json
{
  "url": "https://www.youtube.com/watch?v=xxxxx",
  "language_preference": "zh",
  "custom_prompt": "提取教程的主要步骤和关键概念"
}

返回结果

工具返回一个包含以下字段的对象:

  • llmContent: 提取的认知内容
  • returnDisplay: 用户友好的显示信息
  • summary: 操作摘要
  • cognition_id: 上传后的认知 ID
  • local_file: 本地保存的文件路径(如果启用)

认知数据结构

typescript
{
  question: string;      // 核心问题
  answer: string;        // 详细答案
  abstract: string;      // 内容摘要
  keywords: string[];    // 关键词
  source: string;        // 来源
  url: string;           // 原始 URL
  language: string;      // 语言
  metadata: object;      // 额外元数据
}

支持的内容类型

  1. 网页文章

    • 技术博客
    • 新闻文章
    • 教程文档
  2. 学术内容

    • 论文
    • 研究报告
    • 技术文档
  3. 视频内容

    • YouTube 视频
    • 在线课程
    • 演讲录像
  4. 其他内容

    • API 文档
    • 产品说明
    • 技术规范

最佳实践

  1. 选择高质量内容

    • 权威来源
    • 结构清晰
    • 信息丰富
  2. 使用自定义提示

    • 指定提取重点
    • 明确关注领域
    • 提高提取质量
  3. 合理使用语言偏好

    • 中文内容用 "zh"
    • 英文内容用 "en"
    • 不确定用 "auto"
  4. 添加来源信息

    • 便于后续追溯
    • 提高可信度
    • 方便分类管理
  5. 保存重要内容

    • 启用 save_raw_content
    • 建立本地备份
    • 便于离线访问

性能考虑

  1. 处理时间

    • 简单文章:10-30 秒
    • 复杂内容:30-60 秒
    • YouTube 视频:1-2 分钟
  2. 内容大小

    • 建议单篇文章不超过 50000 字
    • 视频时长建议在 1 小时内
  3. API 限制

    • 注意调用频率
    • 避免短时间大量请求

错误处理

可能的错误情况:

  1. URL 错误

    • URL 格式不正确
    • 无法访问 URL
    • 内容不存在
  2. 认证错误

    • SII 凭据无效
    • 权限不足
  3. 提取错误

    • 内容格式不支持
    • 提取失败
    • 内容过大
  4. 上传错误

    • 网络连接失败
    • 服务器错误
    • 存储空间不足

隐私和安全

  1. 数据处理

    • 遵守网站使用条款
    • 尊重版权
    • 不提取敏感信息
  2. 数据存储

    • 安全存储在 SII 云端
    • 本地文件加密存储
    • 可随时删除
  3. 访问控制

    • 仅个人可访问
    • 可设置共享权限
    • 遵守隐私政策

与其他工具的集成

与 sii_web_search 结合

1. 使用 sii_web_search 找到有价值的内容
2. 使用 sii_cognition_extract_upload 提取并保存

与 sii_hybrid_search 结合

1. 使用 sii_hybrid_search 搜索相关主题
2. 使用 sii_cognition_extract_upload 保存重要发现

与 sii_cognitions 结合

1. 使用 sii_cognition_extract_upload 上传新认知
2. 使用 sii_cognitions 搜索和检索

故障排除

提取失败

  1. 检查 URL 是否可访问
  2. 验证内容类型是否支持
  3. 尝试使用自定义提示

上传失败

  1. 检查网络连接
  2. 验证 SII 凭据
  3. 检查存储空间

YouTube 视频无法提取

  1. 确认视频有字幕或转录
  2. 检查视频是否公开
  3. 验证 URL 格式

相关工具

  • sii_web_search: 搜索网页
  • sii_web_fetch: 获取网页内容
  • sii_cognitions: 搜索认知库
  • sii_hybrid_search: 混合搜索

总结

sii_cognition_extract_upload 是一个强大的知识管理工具,可以自动从网页和视频中提取结构化的认知信息,并保存到个人知识库。通过合理使用这个工具,可以高效地建立和管理个人或团队的知识资产。

记住:选择高质量的内容源,使用自定义提示提高提取质量,并注意隐私和版权问题。

Released under the MIT License.