easyocr和paddleocr的简单使用与对比

xsobi 2024-12-08 19:31 1 浏览

这次有个OCR的需求，对比了一下[easyocr](https://pypi.org/project/easyocr/)和[paddleocr](https://pypi.org/project/paddleocr/)的识别效果，最终选择了paddleocr。

这里记录一下使用过程和遇到的问题。

easyocr

github地址: https://github.com/JaidedAI/EasyOCR

安装

使用easyocr前，需要先安装torch和torchvision (https://pytorch.org/)

如果使用GPU的话，还需要先安装CUDA（安装方式自行百度）

CUDA和pytorch安装好后，再 pip install easyocr

简单使用

import easyocr

image = r"D:\tmp\test\1.PNG"
reader = easyocr.Reader(['ch_sim', 'en'])
result = reader.readtext(image, detail=0)
print(result)

遇到的问题

安装torch的时候，使用conda安装比pip安装，快了不知道多少倍！！！一开始使用pip安装等得花儿都谢了
对比了一下，同一张图片，使用GPU的识别速度比使用CPU快2.4倍左右
如果报错`ImportError: cannot import name 'model_urls' from 'torchvision.models.vgg'`，那就是easyocr和torchvision的版本差异问题（我当时使用的版本：easyocr=1.7.1，torch=2.2.1，torchvision=0.17.1)
如果报错`can't open/read file: check file path/integrity....AttributeError: 'NoneType' object has no attribute 'shape'`那就是图片路径出现中文了，不要有中文路径

图片越大，OCR耗时越长，如果你只需要识别图片特定部分，可以先把图片裁剪了，减少识别区域，加快OCR识别速度（我当时的需求，只需要识别图片上半部分，于是就将上半张图片另存为新图。识别半张图比完整图快2.6倍）

将上半张图另存为新图的代码：

def split_image_vertically_get_upper_part(image_path) -> str:
    # 将图片分为上下2半，将上半张图片保存为新文件，并返回路径
    img = Image.open(image_path)
    width, height = img.size
    split_point_y = height // 2
    top_img = img.crop((0, 0, width, split_point_y))
    # 保存上半部分图片 保存到同级目录
    dir_path, filename_with_suffix = os.path.split(image_path)
    filename, suffix = os.path.splitext(filename_with_suffix)
    new_path = os.path.join(dir_path, f'{filename}_top{suffix}')
    top_img.save(new_path)
    return new_path

使用效果

英文图片识别：

中文图片识别：

目前看起来一切正常，挺满意的。但是，一旦图片变大一点，字体变小一点，中文识别就有问题了（大图小字英文图片我没试过）。下图是这次要识别的图片，图大字小，为了数据脱敏，只截取了几个片段：

没办法，只能换一个OCR库，于是转向了paddleocr

paddleocr

github地址：https://github.com/PaddlePaddle/PaddleOCR

安装

使用paddleocr，需要先安装paddlepaddle：

如果使用GPU 也需要先安装CUDA，然后pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple

如果使用CPU：pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

再pip install "paddleocr>=2.0.1"

遇到的问题

我目前使用的版本：paddleocr=2.7.0.3， paddlepaddle-gpu=2.6.0。貌似这俩对CUDA的版本要求是<=11，而我在上面体验easyocr到时候已经安装了最新版的12.2，真是造化弄人啊。我不想卸载CUDA重新安装，太麻烦了，先直接运行看看能不能跑

结果一堆报错，说缺少动态连接文件，比如Could not locate cudnn_cnn_infer64_8.dll. Please make sure it is in your library path!

这种版本不匹配的情况，通常只能推倒重来，但我使用了另一种偏方：

我用everything搜索缺的那个动态链接库cudnn_cnn_infer64_8.dll，结果在上面easyocr的环境中找到了笑哭.gif。于是它报缺什么dll，我就从anaconda\envs\torchocr2\Lib\site-packages\torch\lib， easyocr的虚拟环境中找到复制到anaconda\envs\paddle_env\Lib\site-packages\paddle\libs 中去

最后还报了缺一个cublas64_11.dll 但是我只在CUDA的安装目录C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2\bin 中找到了cublas64_12.dll ，但是版本不匹配呀，怎么搞？我又用了个偏方把cublas64_12.dll 复制到anaconda\envs\paddle_env\Lib\site-packages\paddle\libs 把12改成11，骗一下它，看看行不行，结果还真骗过去了再次笑哭.gif

简单使用

from paddleocr import PaddleOCR

image2 = r"D:\tmp\test\1.PNG"
ocr = PaddleOCR(use_angle_cls=False, lang="ch")
result = ocr.ocr(image2, cls=False)
content_list=[]
for idx in range(len(result)):
    res = result[idx]
    for line in res:
        content_list.append(line[-1][0])
content=''.join(content_list)
print(content)

使用效果

很好，超出预期，上面easyocr未识别出来的，paddleocr全部识别出来了，中文OCR还得是国产强。

我那大图小字的图片不好脱敏，就不贴图了。

唯一的缺点就是 i j l 0 o 这些识别可能不准确。但是情有可原，已经非常棒了。

2个OCR库该有的功能都有,比如识别出的文字坐标, 准确率等.本文只是基于我的需求,测了文字提取,更多其他功能,各位自行去查阅官方文档

paddleocr

上一篇：C# ABP框架API(一)ABP框架简介、应用场景、知识储备、技术储备
下一篇：百度开源的高精度OCR工具库

easyocr和paddleocr的简单使用与对比

easyocr

paddleocr

相关推荐

帝国cms插件，帝国cms网站插件，帝国插件(附下载)

SK海力士量产全球首款321层堆叠3D闪存，Win 11 LTSC推出热补丁功能

这块安全“补丁”，补的牢!

strcat函数实现(C语言)

黄金分割主图指标(主图叠加)

治疗之道!GRID团队框架插件完美设置教程

如何使用CSS 新语法grid-area来设置网格布局

ASP.NET界面开发技巧放送，轻松自定义Grid运行时编辑表单布局

《战神:诸神黄昏》6.001补丁发布优化手柄和显卡支持

避雷心经 | Coredump排查入门

easyocr和paddleocr的简单使用与对比

easyocr

paddleocr

相关推荐

帝国cms插件，帝国cms网站插件，帝国插件(附下载)

SK海力士量产全球首款321层堆叠3D闪存，Win 11 LTSC推出热补丁功能

这块安全“补丁”，补的牢!

strcat函数实现(C语言)

黄金分割主图指标(主图叠加)

治疗之道!GRID团队框架插件完美设置教程

如何使用CSS 新语法grid-area来设置网格布局

ASP.NET界面开发技巧放送，轻松自定义Grid运行时编辑表单布局

《战神:诸神黄昏》6.001补丁发布 优化手柄和显卡支持

避雷心经 | Coredump排查入门

《战神:诸神黄昏》6.001补丁发布优化手柄和显卡支持