百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 文章教程 > 正文

easyocr和paddleocr的简单使用与对比

xsobi 2024-12-08 19:31 1 浏览

这次有个OCR的需求,对比了一下[easyocr](https://pypi.org/project/easyocr/)和[paddleocr](https://pypi.org/project/paddleocr/)的识别效果,最终选择了paddleocr。

这里记录一下使用过程和遇到的问题。

easyocr

github地址: https://github.com/JaidedAI/EasyOCR

安装

使用easyocr前,需要先安装torch和torchvision (https://pytorch.org/)

如果使用GPU的话,还需要先安装CUDA(安装方式自行百度)

CUDA和pytorch安装好后,再 pip install easyocr

简单使用

import easyocr

image = r"D:\tmp\test\1.PNG"
reader = easyocr.Reader(['ch_sim', 'en'])
result = reader.readtext(image, detail=0)
print(result)

遇到的问题

  • 安装torch的时候,使用conda安装比pip安装,快了不知道多少倍!!!一开始使用pip安装等得花儿都谢了
  • 对比了一下,同一张图片,使用GPU的识别速度比使用CPU快2.4倍左右
  • 如果报错`ImportError: cannot import name 'model_urls' from 'torchvision.models.vgg'`,那就是easyocr和torchvision的版本差异问题(我当时使用的版本:easyocr=1.7.1,torch=2.2.1,torchvision=0.17.1)
  • 如果报错`can't open/read file: check file path/integrity....AttributeError: 'NoneType' object has no attribute 'shape'`那就是图片路径出现中文了,不要有中文路径

图片越大,OCR耗时越长,如果你只需要识别图片特定部分,可以先把图片裁剪了,减少识别区域,加快OCR识别速度(我当时的需求,只需要识别图片上半部分,于是就将上半张图片另存为新图。识别半张图比完整图快2.6倍)

将上半张图另存为新图的代码:

def split_image_vertically_get_upper_part(image_path) -> str:
    # 将图片分为上下2半,将上半张图片保存为新文件,并返回路径
    img = Image.open(image_path)
    width, height = img.size
    split_point_y = height // 2
    top_img = img.crop((0, 0, width, split_point_y))
    # 保存上半部分图片 保存到同级目录
    dir_path, filename_with_suffix = os.path.split(image_path)
    filename, suffix = os.path.splitext(filename_with_suffix)
    new_path = os.path.join(dir_path, f'{filename}_top{suffix}')
    top_img.save(new_path)
    return new_path

使用效果

英文图片识别:

中文图片识别:

目前看起来一切正常,挺满意的。但是,一旦图片变大一点,字体变小一点,中文识别就有问题了(大图小字英文图片 我没试过)。下图是这次要识别的图片,图大字小,为了数据脱敏,只截取了几个片段:

没办法,只能换一个OCR库,于是转向了paddleocr


paddleocr

github地址:https://github.com/PaddlePaddle/PaddleOCR

安装

使用paddleocr,需要先安装paddlepaddle:

如果使用GPU 也需要先安装CUDA,然后pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple

如果使用CPU:pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

再pip install "paddleocr>=2.0.1"

遇到的问题

我目前使用的版本:paddleocr=2.7.0.3, paddlepaddle-gpu=2.6.0。貌似这俩对CUDA的版本要求是<=11,而我在上面体验easyocr到时候已经安装了最新版的12.2,真是造化弄人啊。我不想卸载CUDA重新安装,太麻烦了,先直接运行看看能不能跑

结果一堆报错,说缺少动态连接文件,比如Could not locate cudnn_cnn_infer64_8.dll. Please make sure it is in your library path!

这种版本不匹配的情况,通常只能推倒重来,但我使用了另一种偏方:

我用everything搜索缺的那个动态链接库cudnn_cnn_infer64_8.dll,结果在上面easyocr的环境中找到了 笑哭.gif。于是它报缺什么dll,我就从anaconda\envs\torchocr2\Lib\site-packages\torch\lib, easyocr的虚拟环境中找到复制到anaconda\envs\paddle_env\Lib\site-packages\paddle\libs 中去

最后还报了缺一个cublas64_11.dll 但是我只在CUDA的安装目录C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2\bin 中找到了cublas64_12.dll ,但是版本不匹配呀,怎么搞?我又用了个偏方把cublas64_12.dll 复制到anaconda\envs\paddle_env\Lib\site-packages\paddle\libs 把12改成11,骗一下它,看看行不行,结果还真骗过去了 再次笑哭.gif

简单使用

from paddleocr import PaddleOCR

image2 = r"D:\tmp\test\1.PNG"
ocr = PaddleOCR(use_angle_cls=False, lang="ch")
result = ocr.ocr(image2, cls=False)
content_list=[]
for idx in range(len(result)):
    res = result[idx]
    for line in res:
        content_list.append(line[-1][0])
content=''.join(content_list)
print(content)

使用效果

很好,超出预期,上面easyocr未识别出来的,paddleocr全部识别出来了,中文OCR还得是国产强。

我那大图小字的图片不好脱敏,就不贴图了。

唯一的缺点就是 i j l 0 o 这些识别可能不准确。但是情有可原,已经非常棒了。

2个OCR库该有的功能都有,比如识别出的文字坐标, 准确率 等.本文只是基于我的需求,测了文字提取,更多其他功能,各位自行去查阅官方文档

相关推荐

好用的云函数!后端低代码接口开发,零基础编写API接口

前言在开发项目过程中,经常需要用到API接口,实现对数据库的CURD等操作。不管你是专业的PHP开发工程师,还是客户端开发工程师,或者是不懂编程但懂得数据库SQL查询,又或者是完全不太懂技术的人,通过...

快速上手:Windows 平台上 cURL 命令的使用方法

在工作流程中,为了快速验证API接口有效性,团队成员经常转向直接执行cURL命令的方法。这种做法不仅节省时间,而且促进了团队效率的提升。对于使用Windows系统的用户来说,这里有一套详细...

使用 Golang net/http 包:基础入门与实战

简介Go的net/http包是构建HTTP服务的核心库,功能强大且易于使用。它提供了基本的HTTP客户端和服务端支持,可以快速构建RESTAPI、Web应用等服务。本文将介绍ne...

#小白接口# 使用云函数,人人都能编写和发布自己的API接口

你只需编写简单的云函数,就可以实现自己的业务逻辑,发布后就可以生成自己的接口给客户端调用。果创云支持对云函数进行在线接口编程,进入开放平台我的接口-在线接口编程,设计一个新接口,设计和配置好接口参...

极度精神分裂:我家没有墙面开关,但我虚拟出来了一系列开关

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:iN在之前和大家说过,在iN的家里是没有墙面开关的。...

window使用curl命令的注意事项 curl命令用法

cmd-使用curl命令的注意点前言最近在cmd中使用curl命令来测试restapi,发现有不少问题,这里记录一下。在cmd中使用curl命令的注意事项json不能由单引号包括起来json...

Linux 系统curl命令使用详解 linuxctrl

curl是一个强大的命令行工具,用于在Linux系统中进行数据传输。它支持多种协议,包括HTTP、HTTPS、FTP等,用于下载或上传数据,执行Web请求等。curl命令的常见用法和解...

Tornado 入门:初学者指南 tornados

Tornado是一个功能强大的PythonWeb框架和异步网络库。它最初是为了处理实时Web服务中的数千个同时连接而开发的。它独特的Web服务器和框架功能组合使其成为开发高性能Web...

PHP Curl的简单使用 php curl formdata

本文写给刚入PHP坑不久的新手们,作为工具文档,方便用时查阅。CURL是一个非常强大的开源库,它支持很多种协议,例如,HTTP、HTTPS、FTP、TELENT等。日常开发中,我们经常会需要用到cur...

Rust 服务器、服务和应用程序:7 Rust 中的服务器端 Web 应用简介

本章涵盖使用Actix提供静态网页...

我给 Apache 顶级项目提了个 Bug apache顶级项目有哪些

这篇文章记录了给Apache顶级项目-分库分表中间件ShardingSphere提交Bug的历程。说实话,这是一次比较曲折的Bug跟踪之旅。10月28日,我们在GitHub上提...

linux文件下载、服务器交互(curl)

基础环境curl命令描述...

curl简单使用 curl sh

1.curl--help#查看关键字2.curl-A“(添加user-agent<name>SendUser-Agent<name>toserver)”...

常用linux命令:curl 常用linux命令大全

//获取网页内容//不加任何选项使用curl时,默认会发送GET请求来获取内容到标准输出$curlhttp://www.baidu.com//输出<!DOCTYPEh...

三十七,Web渗透提高班之hack the box在线靶场注册及入门知识

一.注册hacktheboxHackTheBox是一个在线平台,允许测试您的渗透技能和代码,并与其他类似兴趣的成员交流想法和方法。它包含一些不断更新的挑战,并且模拟真实场景,其风格更倾向于CT...