更新于 2026-05-30·约 5 分钟

抖音视频声音怎么转文字?

很多抖音视频的核心信息都在声音里。把 DY Text 装进自己的 AI Agent 后,你可以直接把视频链接发给 Agent,让它完成声音转文字,并继续做摘要、改写、标签和知识库沉淀。

操作步骤

clawhub install douyin-to-text

npx dytext-cli setup

1

在 Agent 环境接入转写能力

OpenClaw 用户可以用 clawhub install douyin-to-text 安装;Hermes、Codex、Claude 等场景可以通过 dytext-cli setup 或 REST API 完成账号和 API Key 配置。

2

用自然语言发送任务

把抖音链接发给 Agent,例如“把这个抖音视频声音转文字,语言用 zh-CN”。Agent 会通过 Skill、CLI 或 API 提交任务并等待转写结果。

3

让 Agent 继续整理文本

拿到转写结果后,可以继续让 Agent 提取重点、生成摘要、整理字幕草稿或拆成口播脚本结构。

视频声音转文字的价值

视频适合观看,但文字适合沉淀。通过 Agent 转成文字后,一条视频可以直接进入你的选题库、话术库和知识库,也能继续被 Agent 检索、比较和重写。

哪些视频转写效果更好

单人口播、背景噪声少、音乐音量低、语速稳定的视频通常效果更好。如果视频里多人同时说话、背景音乐很重或存在明显方言,建议把结果作为草稿而不是最终稿。

如何把转写结果变成可用资料

不要只保存一大段文本。更好的做法是按“开头、核心观点、例子、行动号召”拆分,再补充标签。这样后续写脚本、做复盘或训练内容风格时更有用。

下一步

如果你已经在用 OpenClaw、Hermes、Codex、Claude 等 Agent,可以把 DY Text 作为 Skill、CLI 或 API 接进去;具体安装和接入方式见文档。

常见问题

声音转文字需要上传音频文件吗?

不需要。把抖音分享链接发给 Agent,DY Text 工具会处理后续流程。

背景音乐会影响识别吗?

会。音乐、人声重叠和噪声越明显,越需要人工校对。

可以用于课程和知识类视频整理吗?

可以,尤其适合把知识类口播整理成笔记和摘要。