把微信图片、语音、视频里的文字识别成笔记
把微信图片、语音、视频里的文字识别成笔记
平时在微信里看到一张满是字的截图、一段几分钟的语音、一个会议录像,里面的内容想留下来翻——既不想自己一句一句敲,又不想只存个文件链接放着积灰。这一篇教你怎么把内容交给 DeepSeek、豆包、千问 等 AI 处理,让里面的字、说话内容自动变成笔记里可搜可复制的文字。
这个功能目前对应的是 Obsidian 用户(微信”Obsidian”好友这条线)。其它笔记软件用户可以先用合并转发把内容存下来,文字识别能力之后会陆续接入。
一、它能干什么
把以下三类内容通过微信发给”Obsidian”好友,触发后 AI 会自动整理里面的文字:
| 你发的内容 | 整理出来的东西 | 落到笔记里的位置 |
|---|---|---|
| 图片(截图、文档照片、PPT 拍照、海报…) | 图里的所有文字 | 跟图同一篇笔记,附在图片下面 |
| 语音(自己录的、群里转过来的、会议片段) | 说话内容的转写 | 单独成一篇笔记 |
| 视频(短视频、会议录像、课程剪辑) | 视频里说话的转写 | 单独成一篇笔记 |
直接发和用”文件”方式发过来都行——直接发的图片/语音/视频会走同一条识别管线;用”+ → 文件”以附件方式发过来的常见图片、视频、录音文件(mp4 / mp3 / m4a / wav 等,完整列表见末尾)也会被一并识别。
视频识别的是说话内容(人声、旁白、对白),而不是画面里的字幕或屏幕里出现的文字。
二、怎么用
不是发过去就识别——为了避免每一张随手转发的图片都被当文档处理,需要在转发时加一个简单的”暗号”。
💡 不想每次都写「转」? Obsidian 用户可以在用户设置页把「发给助手的图片/音视频是否自动转录为文本」打开——之后主动发到微信”Obsidian”好友的图片 / 语音 / 视频都会自动识别,不再需要在备注里写「转」「转录」「识别」「文字」这类关键词。下文的「加暗号」流程是该开关关闭(默认)时的使用方式。
第一步:转发给微信“Obsidian”好友
在微信里长按要保存的图片 / 语音 / 视频 → 转发 → 选择微信“Obsidian”好友。
还没添加“Obsidian”好友的,先看 《同步不成功排查》 末尾的添加流程。
第二步:在备注里写上关键词
转发到企业微信好友时,会出现”留言”或者”备注”输入框。在那里输入下面任意一个词就行:
- 转
- 转录
- 识别
- 文字
举几个例子:
- 备注
转—— ✅ 触发 - 备注
转录一下—— ✅ 触发(包含「转」和「转录」) - 备注
帮我识别下文字—— ✅ 触发(包含「识别」和「文字」) - 备注
记一下—— ❌ 不触发,按普通图/语音/视频存(只留文件,不交 AI 整理) - 完全不写备注 —— ❌ 不触发,按普通图/语音/视频存
关键词只要在备注里出现就行,不需要单独成句。
实际操作的样子(视频转发到微信“Obsidian”好友时,在备注栏写一个「转」就行):
第三步:等通知
发出去之后,会收到微信通知:
- 图片:通常 3~5 分钟内整理完成。下次打开 Obsidian 同步一下,图和识别出的文字会一起出现
- 语音 / 视频:内容长的话需要更久(几分钟到 30 分钟左右),后台慢慢处理;处理好之后会单独多出一篇标题以「[转录]」开头的笔记
三、收到的微信语音消息怎么存?
聊天里别人发来的那种灰色语音条,没法像图片 / 视频一样”长按转发 + 备注「转」“。用一个绕过去的小办法就行:
- 在微信里长按这条语音 → 点「转文字」(微信自带功能),等几秒,气泡下面会出现一段转写文字
- 截图这段带转写文字的对话画面
- 把这张截图转发给微信”Obsidian”好友,备注里写一句「转」
这样就走图片识别这一条线——截图里的文字(也就是语音内容)会和截图一起进笔记,下次直接搜文字就能找回这条语音说了什么。
这种方式适合别人发来的、不长的语音消息。如果是自己录的长语音、或者拿到的是
.mp3/.m4a/.wav这种音频文件,直接用「+ → 文件」发过来 + 备注「转录」就行——走的是音频转写线,效果比截图 OCR 更准。
四、效果是什么样
图片:图下面附一段识别文字
发一张满是字的截图,备注 转。最后笔记里看到的就是:
(笔记里)
[原图片]
---
**识别文字:**
完整的图里文字内容……
图还是原来那张图,下面多出图里所有的文字——下次想找这段内容时直接搜文字就能搜到,不用再开图找。
语音:单独成一篇笔记
发一段 5 分钟的微信语音,备注 转录。
会多出一篇笔记,标题类似 [转录] 同步助手_20260430_xxx_语音,正文就是这段语音的完整转写。
视频:单独成一篇笔记
发一段会议录像,备注 识别。
会多出一篇笔记,标题类似 [转录] 同步助手_20260430_xxx_视频,正文是视频里说话部分的完整文字稿。原视频文件链接会保留在最初那篇笔记里,不会丢。
五、几个常见的小坑
1. “转账”也会触发
因为关键词是 转 / 转录 / 识别 / 文字,所以”转账记录”、“识别证件”、“文字介绍”这种词里包含的”转”或”识别”也会被算成识别请求。
如果你只是想存个文件、不要识别,备注里就别用上面那几个字。
2. 视频很长可能要等比较久
特别长的视频(比如一小时课程)后台需要十几到三十分钟处理,这期间微信里不会一直转圈——你可以先去做别的事,处理完之后会一次性把转写结果同步出来。
3. 整理出来是空的
可能的原因:
- 图片里其实没有文字(纯画面 / 纯插图)—— 正常,不会强行编内容
- 语音 / 视频里没人说话,或者全是音乐 —— 转写结果会很短或为空
- 视频是屏幕录像那种”画面里有字、没人说话” —— 当前识别的是声音,没有声音时识别不到
4. 图片太大可能不出文字
为了不让一张大图把后台占用太久,单张图片大于 10MB 时会跳过文字识别(图本身仍然完整保存到笔记,只是不再附识别文字)。如果你发的是高清扫描件或者高分辨率截图,可以先在手机里压缩一下再发过来。
这个上限只影响图片识别。语音和视频后台是异步处理,不受这个限制。
5. 我的备注写对了但没触发
按这个顺序排查:
- 转发对象确认是微信“Obsidian”好友(不是公众号、不是其它助手好友)
- 备注里真的写了 转 / 转录 / 识别 / 文字 中的某一个
- 内容是图片、语音、视频,或者文件后缀在末尾”支持的文件格式”列表里;纯文字 / 链接 / 不在列表里的文件类型不走这条路径
- 都对了还是没反应 —— 直接联系客服看是哪一步卡住了
6. 视频识别只出了开头几句、后面没了
少见但确实会遇到,常见原因:
- 积分中途扣到 0:超长视频处理过程中积分耗尽,剩下的部分会被跳过。先在服务号发”积分”看下余额;如果是 0 或负数,充值后把链接重发一次即可。
- 视频里中间有大段无声 / 纯背景音乐:当前识别的是说话内容,遇到没人说话的段落会跳过;不是 bug,把鼠标拖到有人说话的位置看下视频本身有没有声音即可。
- 链接本身只能拿到预览片段:有些平台分享出来的链接对方未登录就只能看前几十秒,能识别的也就那么多内容。换条完整视频的链接再发一次。
如果上面都不是,直接把链接和发送时间发给客服,从后台能看到具体在哪一步停的。
7. 文件在微信里还没下载到本地就直接转发
用「+ → 文件」发文件给助手时,首次接收方必须先点开文件下载到本地——文件下方只要还显示灰色「未下载」三个字,或者你转发的是整段聊天记录里夹着未下载的文件,助手都没法替您下载和同步,会回推一条「工单完成通知 / 处理结果:获取失败」的提醒:
收到这条提醒就回到原来的对话先点开文件下载,再单独转发一次给助手即可。另外单文件上限 50MB,超过的部分微信本身就不允许转发。
8. 不支持的几种情况
- 批量识别一次性几十张图:目前不支持批量打包识别,需要一张一张发(或一段段地发),每条带”转”或”识别”备注。
- 识别错别字 / 识别结果不对:当前没有”再识别一次”或”在线修订”的入口,直接在笔记里修改就行。AI 模型升级后会逐步变准。
- 拍照写的字(潦草手写):识别支持手写体,但字迹潦草、灯光不均、纸面反光都会影响准确度。先用一张照片试试效果再决定要不要批量发。
- 打印体扫描件:效果最好,绝大多数情况下错字率很低。
- 屏幕截图:效果跟”打印体扫描件”接近。
六、计费说明
按识别出来的字数计费:每 100 字 = 1 积分(不满 100 字向上取整)。适用于 图片识别 / 视频转写 / 录音文件(mp3 / m4a / wav 等)转写。图片识别会再过一遍 AI 整理(修正错别字、合并断句、按主题分段)。
举几个例子:
- 识别出 80 字 → 1 积分
- 识别出 200 字 → 2 积分
- 识别出 500 字 → 5 积分
- 识别出 1200 字 → 12 积分
- 识别失败 / 没识别到内容 → 不扣积分
直接发微信语音消息(聊天里那种长按录的语音条)转录不消耗积分、不限量——和上面”录音文件”是两回事,不要混。
积分余额、充值入口在「笔记同步助手」服务号底部菜单 高级权益 → 积分;流水明细在隔壁 查积分明细。完整积分体系参见 《笔记同步助手积分用途说明》。
七、卡住了怎么办
发过去半天没反应、识别出来明显错了、笔记里压根没出现新内容,可以直接联系客服:
把发送时间和大致内容告诉客服,从后台能看出是哪一步卡住的。
八、相关阅读
九、支持的文件格式
直接发图片 / 语音 / 视频不用管格式——微信本来发什么后台就吃什么。
如果是用「+ → 文件」以附件方式发过来的,下面这些后缀会被识别成对应内容(不区分大小写):
图片(识别图里的文字)
.jpg · .jpeg · .png · .gif · .bmp · .webp · .tiff · .tif · .heic · .heif · .avif
录音 / 音频(转写说话内容)
.mp3 · .m4a · .wav · .wave · .aac · .flac · .ogg · .oga · .opus · .amr · .3ga · .aiff · .aif · .caf · .wma · .ape · .mka · .weba
几乎覆盖所有手机录音 App 的导出格式:iPhone 语音备忘录(
.m4a/.caf)、安卓 / 三星老语音(.amr/.3ga)、播客 / 音乐(.mp3/.flac/.ogg)、Windows 录音(.wma)等。
视频(转写视频里说话内容)
.mp4 · .mov · .m4v · .avi · .mkv · .flv · .wmv · .webm · .3gp · .3g2 · .mpg · .mpeg · .mts · .m2ts · .ts · .ogv
不在上面三张表里的格式(.pdf / .doc / .zip / .txt / 异常少见的容器格式等),即使备注里写了关键词也不会被识别成文字,会按普通文件保存。