尝试使用DeepSeek-OCR

发表于 2025-10-24 更新于 2025-10-25 分类于 AI 阅读次数：本文字数： 1.5k 阅读时长 ≈ 4 分钟

对比使用Umi-OCR和DeepSeek OCR的结果，有进步有问题。

DeepSeek 前几天发布了DeepSeek-OCR，当天就关注到了。特别值得注意的是模型大小只有6个多G，用我的笔记本（RTX4060 8G）就能够勉强运行。

今天尝试了一下，部署的是deepseek_ocr_app。

部署的注意事项：

我稍微修改了一下，可以直接提交多个图片，然后识别完了之后可以把所有结果保存在一个文件中。

由于我不懂前端，所以完全是面向Gemini编程。

我的用处主要是识别一些文字截图，之前主要使用白描和Umi-OCR（使用的是PaddleOCR v2.6/v2.8 cpp infer）。

对比了一下Umi-OCR和DeepSeek-OCR对同一批截图进行识别的结果，应该说有好有坏。

优点非常多：

二者共同存在的问题：

但是，DeepSeek-OCR有一个缺点很严重，那就是会擅自修改内容！！！

擅自改字。例如，DeepSeek-OCR把「当事者」识别成了「当事人」，这显然不是识别本身出的错，而是在识别之后改的。
（当然，把原文中的错别字改对的情况也很多，但更多的是按照它自己错误的理解改的。）
如果一个图片的最后一句话没完（剩下的在下一张图片上），DeepSeek-OCR会自动猜上。
擅自在行末加标点。
甚至还有在行末擅自加表情的……
擅自修改逗号和顿号。（虽然有的时候改对了……）

另外，DeepSeek-OCR的速度要慢得多。

看了一下论文，从它的架构图

DeepSeek-OCR Architecture

可以看到，在最后负责解码输出的是一个DeepSeek-3B-MOE模型，也就是一个小型的DeepSeek模型，乱改识别到的内容显然是这部分的「杰作」。

20251025更新：

今天又试了一下DeepSeek-OCR对数学公式的识别，确实牛，基本上都对了。

不过问题和前面一样，就是它总喜欢自作聪明地去对结果进行修改。

实变函数期末考试

例如上面对于一个考试试卷的识别，一共只有三处错误。第一个显然是它觉得不完整自己给补全的，就像之前我发现它特别喜欢补全标点符号一样。后两个错误看上去是识别错误，但我严重怀疑也是被改错的，特别是最后一个。