OCR到头了?No!No! OCR2.0 强势开源来袭
xsobi 2024-12-08 19:33 1 浏览
之前写的文章就介绍过OCR(光学字符识别),各大厂也逐渐开源了自己的OCR工具以及大模型。
最近huggingface开源了一款端对端的大模型GOT-OCR2.0 ,OCR2.0不仅能够识别常规文本,而且还能识别数学公式,乐谱、图形等复杂的内容,我觉得可以称之为全能选手了。
介绍
GOT-OCR2.0是一款端对端的OCR模型,解决了OCR1.0的难题和痛点。支持传统的多种场景文档识别,而且支持复杂数学公式,图形等复杂内容。它采用集成的version encoder 、decoder 能处理多种类型输入以及高分辨率的图形处理。随着OCR2.0的发布,标志着新一代OCR技术的到来。
官网地址:https://huggingface.co/ucaslcl/GOT-OCR2_0
github地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0
安装
小伙伴安装的话最好是GPU或者强劲的CPU
//clone 代码
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0
//安装环境
conda create -n got python=3.10 -y
conda activate got
pip install -e .
//安装Flash-Attention
pip install ninja
pip install flash-attn --no-build-isolation
下载GOT-WEIGHT
https://pan.baidu.com/s/1G4aArpCOt6I_trHv_1SE2g?code=OCR2
//plain texts OCR:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
//format texts OCR:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type format
识别效果:
优势、缺点
我觉得OCR2.0能识别数学公式已经很不错了,而且OCR2.0支持多种OCR场景任务、支持高分辨率识别、端对端模型设计而且只有不到1.5G。研究团队说GOT-OCR2.0 还有上升空间,比如在国际化方面不是很好,目前就中文、英文比较好,其他语言暂时还不支持,但是研究团队的这种探索的心态确实值得称赞。[赞]
论文:https://arxiv.org/pdf/2409.0170 感兴趣的小伙伴可以去看看论文。
好了,今天的介绍就到这里了。想继续探索GOT-OCR2.0的小伙伴上官网以及github上看更多的资料吧,也可以评论区给我留言。后面有时间的话准备做一篇PaddleOCrR VS GOT-OCR2.0 ,同时也欢迎小伙伴的一起参与,为开源做贡献。[作揖]
相关推荐
- js向对象中添加元素(对象,数组) js对象里面添加元素
-
一、添加一个元素对象名["属性名"]=值(值:可以是一个值,可以是一个对象,也可以是一个数组)这样添加进去的元素,就是一个值或对象或数组...
- JS小技巧,如何去重对象数组?(一)
-
大家好,关于数组对象去重的业务场景,想必大家都遇到过类似的需求吧,这对这样的需求你是怎么做的呢。下面我就先和大家分享下如果是基于对象的1个属性是怎么去重实现的。方法一:使用.filter()和....
- 「C/C++」之数组、vector对象和array对象的比较
-
数组学习过C语言的,对数组应该都不会陌生,于是这里就不再对数组进行展开介绍。模板类vector模板类vector类似于string,也是一种动态数组。能够在运行阶段设置vector对象的长度,可以在末...
- 如何用sessionStorage保存对象和数组
-
背景:在工作中,我将[{},{}]对象数组形式,存储到sessionStorage,然后ta变成了我看不懂的形式,然后我想取之用之,发现不可能了~记录这次深刻的教训。$clickCouponIndex...
- JavaScript Array 对象 javascript的array对象
-
Array对象Array对象用于在变量中存储多个值:varcars=["Saab","Volvo","BMW"];第一个数组元素的索引值为0,第二个索引值为1,以此类推。更多有...
- JavaScript中的数组Array(对象) js array数组
-
1:数组Array:-数组也是一个对象-数组也是用来存储数据的-和object不同,数组中可以存储一组有序的数据,-数组中存储的数据我们称其为元素(element)-数组中的每一个元素都有一...
- 数组和对象方法&数组去重 数组去重的5种方法前端
-
列举一下JavaScript数组和对象有哪些原生方法?数组:arr.concat(arr1,arr2,arrn);--合并两个或多个数组。此方法不会修改原有数组,而是返回一个新数组...
- C++ 类如何定义对象数组?初始化数组?linux C++第43讲
-
对象数组学过C语言的读者对数组的概念应该很熟悉了。数组的元素可以是int类型的变量,例如int...
- ElasticSearch第六篇:复合数据类型-数组,对象
-
在ElasticSearch中,使用JSON结构来存储数据,一个Key/Value对是JSON的一个字段,而Value可以是基础数据类型,也可以是数组,文档(也叫对象),或文档数组,因此,每个JSON...
- 第58条:区分数组对象和类数组对象
-
示例设想有两个不同类的API。第一个是位向量:有序的位集合varbits=newBitVector;bits.enable(4);bits.enable([1,3,8,17]);b...
- 八皇后问题解法(Common Lisp实现)
-
如何才能在一张国际象棋的棋盘上摆上八个皇后而不致使她们互相威胁呢?这个著名的问题可以方便地通过一种树搜索方法来解决。首先,我们需要写一个函数来判断棋盘上的两个皇后是否互相威协。在国际象棋中,皇后可以沿...
- visual lisp修改颜色的模板函数 怎么更改visual studio的配色
-
(defunBF-yansemokuai(tuyuanyanse/ss)...
- 用中望CAD加载LISP程序技巧 中望cad2015怎么加载燕秀
-
1、首先请加载lisp程序,加载方法如下:在菜单栏选择工具——加载应用程序——添加,选择lisp程序然后加载,然后选择添加到启动组。2、然后是添加自定义栏以及图标,方法如下(以...
- 图的深度优先搜索和广度优先搜索(Common Lisp实现)
-
为了便于描述,本文中的图指的是下图所示的无向图。搜索指:搜索从S到F的一条路径。若存在,则以表的形式返回路径;若不存在,则返回nil。...
- 两个有助于理解Common Lisp宏的例子
-
在Lisp中,函数和数据具有相同的形式。这是Lisp语言的一个重大特色。一个Lisp函数可以分析另一个Lisp函数;甚至可以和另一个Lisp函数组成一个整体,并加以利用。Lisp的宏,是实现上述特色的...
- 一周热门
- 最近发表
- 标签列表
-
- grid 设置 (58)
- 移位运算 (48)
- not specified (45)
- patch补丁 (31)
- strcat (25)
- 导航栏 (58)
- context xml (46)
- scroll (43)
- element style (30)
- dedecms模版 (53)
- vs打不开 (29)
- nmap (30)
- webgl开发 (24)
- parse (24)
- c 视频教程下载 (33)
- android 开发环境 (24)
- paddleocr (28)
- listview排序 (33)
- firebug 使用 (31)
- transactionmanager (30)
- characterencodingfilter (33)
- getmonth (34)
- commandtimeout (30)
- hibernate教程 (31)
- label换行 (33)