更新于 2026-05-30·约 5 分钟

抖音视频声音怎么转文字？

很多抖音视频的核心信息都在声音里。把 DY Text 装进自己的 AI Agent 后，你可以直接把视频链接发给 Agent，让它完成声音转文字，并继续做摘要、改写、标签和知识库沉淀。

操作步骤

clawhub install douyin-to-text

npx dytext-cli setup

OpenClaw 用户可以用 clawhub install douyin-to-text 安装；Hermes、Codex、Claude 等场景可以通过 dytext-cli setup 或 REST API 完成账号和 API Key 配置。

把抖音链接发给 Agent，例如“把这个抖音视频声音转文字，语言用 zh-CN”。Agent 会通过 Skill、CLI 或 API 提交任务并等待转写结果。

拿到转写结果后，可以继续让 Agent 提取重点、生成摘要、整理字幕草稿或拆成口播脚本结构。

视频适合观看，但文字适合沉淀。通过 Agent 转成文字后，一条视频可以直接进入你的选题库、话术库和知识库，也能继续被 Agent 检索、比较和重写。

单人口播、背景噪声少、音乐音量低、语速稳定的视频通常效果更好。如果视频里多人同时说话、背景音乐很重或存在明显方言，建议把结果作为草稿而不是最终稿。

不要只保存一大段文本。更好的做法是按“开头、核心观点、例子、行动号召”拆分，再补充标签。这样后续写脚本、做复盘或训练内容风格时更有用。

如果你已经在用 OpenClaw、Hermes、Codex、Claude 等 Agent，可以把 DY Text 作为 Skill、CLI 或 API 接进去；具体安装和接入方式见文档。

不需要。把抖音分享链接发给 Agent，DY Text 工具会处理后续流程。

会。音乐、人声重叠和噪声越明显，越需要人工校对。

可以，尤其适合把知识类口播整理成笔记和摘要。