sii_cognition_extract_upload - 认知提取与上传
概述
sii_cognition_extract_upload 工具从网页 URL(包括 YouTube 视频)提取认知信息并上传到 SII 后端。自动分析内容,生成结构化的认知数据(支持双语),保存到认知数据库,并可选择将原始内容保存到本地文件。支持 YouTube 转录提取和各种内容类型。
工具名称
- 内部名称:
sii_cognition_extract_upload - 显示名称: SII Cognition Extract & Upload
- 图标: 上传云 (CloudUpload)
前置条件
使用此工具需要:
- SII 账户:需要有效的 SII 账户
- 环境变量:
SII_USERNAME: SII 用户名SII_PASSWORD: SII 密码SII_BASE_URL: SII 后端 URL(可选)
参数
必需参数
| 参数名 | 类型 | 说明 |
|---|---|---|
url | string | 要提取认知的 URL。必须是有效的 HTTP/HTTPS URL。 |
可选参数
| 参数名 | 类型 | 默认值 | 说明 |
|---|---|---|---|
language_preference | string | "auto" | 输出的语言偏好:"zh"(中文)、"en"(英文)或 "auto"(自动检测) |
source | string | - | 内容来源的可选描述(例如:"技术博客"、"学术论文") |
custom_prompt | string | - | 可选的自定义提示,用于指导提取过程(例如:"重点关注技术细节") |
save_raw_content | boolean | false | 是否将提取的原始内容保存到本地文件 |
功能说明
内容提取:
- 自动获取网页内容
- 支持 YouTube 视频转录
- 提取关键信息
认知生成:
- 分析内容结构
- 生成问题和答案
- 创建摘要和关键点
- 支持中英文双语
数据上传:
- 保存到 SII 认知库
- 结构化存储
- 可搜索和检索
本地保存:
- 可选保存原始内容
- 便于后续参考
- 支持离线访问
使用场景
- 从技术博客提取知识点
- 保存 YouTube 教程的关键内容
- 归档学术论文的核心观点
- 建立个人知识库
- 团队知识共享
使用示例
基本提取
json
{
"url": "https://example.com/article"
}指定语言
json
{
"url": "https://example.com/article",
"language_preference": "zh"
}添加来源信息
json
{
"url": "https://techblog.com/ai-tutorial",
"source": "技术博客",
"language_preference": "zh"
}自定义提取重点
json
{
"url": "https://example.com/deep-learning-paper",
"custom_prompt": "重点关注模型架构和实验结果",
"language_preference": "zh"
}保存原始内容
json
{
"url": "https://example.com/important-article",
"save_raw_content": true,
"source": "重要文章"
}YouTube 视频提取
json
{
"url": "https://www.youtube.com/watch?v=xxxxx",
"language_preference": "zh",
"custom_prompt": "提取教程的主要步骤和关键概念"
}返回结果
工具返回一个包含以下字段的对象:
llmContent: 提取的认知内容returnDisplay: 用户友好的显示信息summary: 操作摘要cognition_id: 上传后的认知 IDlocal_file: 本地保存的文件路径(如果启用)
认知数据结构
typescript
{
question: string; // 核心问题
answer: string; // 详细答案
abstract: string; // 内容摘要
keywords: string[]; // 关键词
source: string; // 来源
url: string; // 原始 URL
language: string; // 语言
metadata: object; // 额外元数据
}支持的内容类型
网页文章:
- 技术博客
- 新闻文章
- 教程文档
学术内容:
- 论文
- 研究报告
- 技术文档
视频内容:
- YouTube 视频
- 在线课程
- 演讲录像
其他内容:
- API 文档
- 产品说明
- 技术规范
最佳实践
选择高质量内容:
- 权威来源
- 结构清晰
- 信息丰富
使用自定义提示:
- 指定提取重点
- 明确关注领域
- 提高提取质量
合理使用语言偏好:
- 中文内容用 "zh"
- 英文内容用 "en"
- 不确定用 "auto"
添加来源信息:
- 便于后续追溯
- 提高可信度
- 方便分类管理
保存重要内容:
- 启用 save_raw_content
- 建立本地备份
- 便于离线访问
性能考虑
处理时间:
- 简单文章:10-30 秒
- 复杂内容:30-60 秒
- YouTube 视频:1-2 分钟
内容大小:
- 建议单篇文章不超过 50000 字
- 视频时长建议在 1 小时内
API 限制:
- 注意调用频率
- 避免短时间大量请求
错误处理
可能的错误情况:
URL 错误:
- URL 格式不正确
- 无法访问 URL
- 内容不存在
认证错误:
- SII 凭据无效
- 权限不足
提取错误:
- 内容格式不支持
- 提取失败
- 内容过大
上传错误:
- 网络连接失败
- 服务器错误
- 存储空间不足
隐私和安全
数据处理:
- 遵守网站使用条款
- 尊重版权
- 不提取敏感信息
数据存储:
- 安全存储在 SII 云端
- 本地文件加密存储
- 可随时删除
访问控制:
- 仅个人可访问
- 可设置共享权限
- 遵守隐私政策
与其他工具的集成
与 sii_web_search 结合
1. 使用 sii_web_search 找到有价值的内容
2. 使用 sii_cognition_extract_upload 提取并保存与 sii_hybrid_search 结合
1. 使用 sii_hybrid_search 搜索相关主题
2. 使用 sii_cognition_extract_upload 保存重要发现与 sii_cognitions 结合
1. 使用 sii_cognition_extract_upload 上传新认知
2. 使用 sii_cognitions 搜索和检索故障排除
提取失败
- 检查 URL 是否可访问
- 验证内容类型是否支持
- 尝试使用自定义提示
上传失败
- 检查网络连接
- 验证 SII 凭据
- 检查存储空间
YouTube 视频无法提取
- 确认视频有字幕或转录
- 检查视频是否公开
- 验证 URL 格式
相关工具
sii_web_search: 搜索网页sii_web_fetch: 获取网页内容sii_cognitions: 搜索认知库sii_hybrid_search: 混合搜索
总结
sii_cognition_extract_upload 是一个强大的知识管理工具,可以自动从网页和视频中提取结构化的认知信息,并保存到个人知识库。通过合理使用这个工具,可以高效地建立和管理个人或团队的知识资产。
记住:选择高质量的内容源,使用自定义提示提高提取质量,并注意隐私和版权问题。
