技术文档
Threada 的工作原理、所需条件以及如何集成。
架构概览
- 抓取 — 按 sitemap 和站内链接抓取你域名下的页面
- 渲染 — 在抽取前渲染 JavaScript 较多的页面
- 抽取 — 抽取内容及结构化数据
- 分块 — 按语义拆分内容
- 嵌入 — 将分块转换为向量嵌入
- 索引 — 存储嵌入用于检索
- 检索 — 基于语义相似度检索相关片段
- 生成 — 从检索内容合成回答
- 引用 — 当找到相关内容时链接来源页
抓取
抓取内容
- 来自 sitemap 或内部链接的 HTML 页面
- 结构化数据(JSON-LD、schema.org)
- 手动上传的文档(PDF、HTML、DOCX)
抓取行为
- 遵守 robots.txt
- 标识 User-Agent
- 限速以避免服务器负载
- 遇到 429 或 5xx 时退避重试
JavaScript 渲染 — 对 SPA 和动态内容在抽取前使用无头浏览器渲染页面。
重新索引
- 监控 sitemap 触发自动重新索引
- 随时可手动重新索引
- 根据方案配置定期重新索引
检索
语义搜索 查询会被转换为嵌入,并按语义相似度匹配,而不是关键词。
相关性阈值 可配置。阈值越高,答案越少但更自信;阈值越低,覆盖更广并提出更多澄清问题。
回答生成
检索到的内容作为上下文传入语言模型。回答只基于提供的上下文生成。
来源引用 — 当找到相关内容时,回答会链接来源页。承认不确定时可能没有引用,因为没有可链接的来源。
边界行为
- 承认自己不知道的内容
- 提出澄清问题
- 建议相关话题
嵌入集成
安装 单一脚本片段,异步加载。
兼容性
- WordPress
- Webflow
- Shopify
- Squarespace
- 自建站
- SPA(React、Vue、Angular)
通过控制台配置
- 颜色、标志、位置
- 欢迎语、语气
- 语言设置
- 相关性阈值
公共 API
面向多渠道工单与动作的安全、租户隔离的 API 访问。
认证与访问
- 在 `X-Api-Key` 头中发送 API 密钥。
- 在 Admin → API keys 中创建和吊销密钥;每个集成使用一把密钥。
- 密钥按租户隔离,并通过 scopes 实现最小权限。
Scopes
- `support.read` — 列出并获取工单、消息和动作。
- `support.write` — 创建/更新工单并追加消息。
- `support.actions` — 执行动作并查询状态。
核心端点
- `/api/v1/public/tickets` — 列出或创建工单。
- `/api/v1/public/tickets/{ticket_id}` — 获取或更新工单详情。
- `/api/v1/public/tickets/{ticket_id}/messages` — 列出或追加消息。
- `/api/v1/public/tickets/{ticket_id}/actions` — 为工单执行动作。
- `/api/v1/public/actions` — 列出或查询动作状态。
响应格式
- JSON 响应;时间戳为 RFC 3339。
- 错误返回 `{ error: { type, message, code } }`。
- 列表端点接受 `limit` 和 `page_token`。
渠道取值
- `web`, `email`, `sms`, `whatsapp`, `social`, `voice`, `custom`。
- 使用 `channel_id` 与 `channel_thread_id` 映射外部会话。
- 使用 `external_message_id` 去重消息写入。
Zapier 设置
将 Threada 连接到 Zapier,实现可控的无代码自动化。
出站自动化(Threada → Zapier)
- 使用 Webhooks by Zapier 的 “Catch Hook” 触发器创建 Zap,并复制 hook URL。
- 在 Admin → Support → Integrations 中添加 Zapier 集成,填写 webhook URL 和可选的 secret header。
- 使用 Custom HTTP 动作发送 payload;若未选择 Custom HTTP 集成,则默认使用 Zapier。
入站自动化(Zapier → Threada)
- 为 Zapier 创建带 scopes 的 API 密钥(最小权限)。
- 使用 Webhooks by Zapier 调用公共 API 的工单与动作端点。
- 在 Zapier 中安全保存密钥并按计划轮换。
企业级运维
- 按环境隔离密钥(生产 vs. 沙箱)。
- 当 Zap 被停用或所有者变更时立即吊销密钥。
- 除非需要写入,否则优先只读 scopes。
安全
托管:GCP,默认 US-Central1。加密:传输 TLS 1.2+,静态 AES-256。认证:企业版支持 OIDC/SAML 的 SSO。合规:符合 GDPR,可配置保留期与审计日志。威胁模型涵盖提示注入、XSS、SSRF、数据外泄。
数据处理
存储内容
- 索引内容
- 嵌入向量
- 聊天记录
- 分析数据
- 配置
不存储
- 支付信息(由支付处理方处理)
- 明文凭据
保留 按租户配置。可按请求删除。
训练 你的内容不会用于训练 AI 模型。
FAQ
受密码保护的页面?
目前不支持。私密内容可上传文档。
排除页面?
可以,通过 robots.txt 或控制台配置。
更新速度?
自动重新索引通常在 24 小时内。手动重新索引立即生效。
抓取时网站不可用?
爬虫会退避重试。之前的内容仍可用。
能查看已索引内容?
可以。控制台显示已索引页面及状态。
多语言?
支持。可自动识别或为每个嵌入设置默认语言。
为什么有时没有引用?
引用用于链接来源。承认不确定时没有可链接的来源,因此不会显示引用。