百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 文章教程 > 正文

如何安放你的大文件,MongoDB GridFS可以帮助你

xsobi 2024-11-23 10:48 19 浏览

1 简介

众所周知(你不知也当你知),MongoDB是以文档(Document)组织数据的。除了常用于存储Json数据,它也是可以存储普通文件的。我们可以把一些文件以BSOON的格式存入MongoDB,十分方便,比较说图片、文本文件等。但MongoDB的BSON Document有大小限制,最大不能超过16MB。这对我们存储大文件是不方便的。还好,MongoDB为我们提供了GridFS文件存储组件,让我们可以存储超过16MB的文件,小文件当然也可以了。接下来让我们一起学习一下这个GridFS存储。

2 基本原理与概念

GridFS原理比较简单,就是把大文件拆成小文件来存储而已。当我们存入一个文件时,默认使用集合fs.files和fs.chunks来存储文件。其中fs.files存储的是文件的信息,fs.chunks用来存放文件内容,以BSON格式存放。

fs.files的一条记录如下:

Bash
{
    "_id" : ObjectId("5ec6b44af3760d5999bd1c91"),
    "length" : NumberLong(1048576),
    "chunkSize" : 261120,
    "uploadDate" : ISODate("2020-05-21T17:03:06.217Z"),
    "filename" : "pkslow.txt",
    "metadata" : {}
}

字段解释:

_id:主键ID;

length:文件大小;

chunkSize:chunk的大小,决定要分几个chunk来存放文件;

uploadDate:文件上传时间;

filename:文件名;

metadata:文件其它信息,可以自定义加上,这样有利于后续的检索和使用等。

fs.chunks的一条记录如下:

Bash
{
    "_id" : ObjectId("5ec6b44af3760d5999bd1c94"),
    "files_id" : ObjectId("5ec6b44af3760d5999bd1c91"),
    "n" : 2,
    "data" : { "$binary" : "xxxxxxxxx", "$type" : "00" }
}

字段解释:

_id:主键ID;

files_id:所存内容对应的文件ID,可以看到与fs._id的值是一样的;

n:第几个chunk的索引,从0开始;

data:文件内容;

从感观上看了两个集合的字段,相信大家基本知道GridFS是怎么组织数据的了。当我们存入一个文件时,如果文件较小,小于chunkSize,则会把文件信息存入fs.files,只有一条记录;文件内容会存入fs.chunks,也只有一条记录。如果存的文件大于chunkSize,也会在fs.files生成一条记录,但在fs.chunks中会生成多条记录来存放文件内容。如下图所示:

MongoDB为我们建立了相关索引,可以加速查询,如fs.files的文件名和上传时间;fs.chunks的文件ID和n。

3 常用mongofiles命令

讲了基本原理,我们来实际操作一下,使用MongoDB给我们准备好的命令来做一些操作。当然,首先要有一个安装好的数据库,可以参考《「MongoDB」用Docker安装一个MongoDB最新版玩玩》。

我们都是使用mongofiles命令进行操作的,需要指定比较多的参考,例如下面的命令用于列出所有文件:

mongofiles --username user --password 123456 --host 127.0.0.1 --port 27017 --authenticationDatabase admin --db testdb list

为了不要每次都输入这么长的命令,我们加个别名:

alias mf='mongofiles --username user --password 123456 --host 127.0.0.1 --port 27017 --authenticationDatabase admin --db testdb'

列出文件:

mf list

存入文件:存入的文件名与本地文件名一样。

mf put pksow.txt

读取文件:

mf get pkslow.txt

查找文件:

mf search pkslow

删除文件:

mf delete pkslow.txt

指定自定义文件名:

mf --local pkslow.txt put /com/pkslow.txt

4 总结

发挥你的想象力,GridFS能做的事很多,存图片、音频、视频等,有时我们只想查看大文件的部分内容,也能方便实现。

注:本文使用的MongoDB版本为4.2.1。


多读书,多分享;多写作,多整理。

相关推荐

Python入门之Python的数据类型和常用操作符

一、Python的数据类型1、在Python中,int表示整型,bool表示布尔类型,float表示浮点类型,str表示字符串。计算机只认识二进制数,所有的编程语言都会转换成二进制语言给CPU按一定的...

金风科技:拟转让澳洲Moorabool风电项目股权及授出26%股权期权

【金风科技:拟转让澳洲Moorabool风电项目股权及授出26%股权期权】财联社12月20日电,金风科技公告,公司全资子公司金风国际Moorabool以1.77亿澳元的价格向Nebras电力转让其持有...

西门子SCL语言编程——PEEK/POKE指令

在SCL语言编程的时候,有两个特别有意思的指令,即读取存储地址和写入存储地址指令,梯形图中貌似没有的。标准地说是两类而不是两个,因为读和写都不止一个指令。先了解这两类指令的基本说明和用法,本篇后面的示...

【 PLC知识分享】PLC中常说的位元件、字元件的区别

#头条创作挑战赛#...

西门子TIA博途S7-1200/1500学习7间接寻址指令PEEK的使用

描述:...

C语言 | 关键字asm 、auto、bool、break 解析

asm插入一个汇编指令....

一文带你了解PLC的基本数据类型,很多电气师傅都不知道

...

什么是Python 之 ? 16 布尔值bool

Python的布尔值类型bool明确的一点是boolean值不是python专有的,其他编程语言javajavascriptphp等其实都有...

自动化PLC 基础 一个变量变成32个Bool 量 #plc编程

自动化PLCDINT数据类型变为BOOL量用。一次定义32个布尔量(BOOL)。前面给大家分享了罗可韦尔ABPLC数据类型的时候有讲到对于整数在ABPLC中最好定义为DINT的数据类型。今天给大家分享...

python数据类型-布尔类型bool(python中的布尔类型提供了哪两个值)

布尔类型是用于表示一种是与不是,对于不对等关系的类型布尔值只有两个:True和False布尔类型一般用于if判断和while循环中...

Python的布尔类型(bool)和布尔表达式

1.布尔类型(bool)Python的布尔类型是bool,表示真(True)或假(False)。它是整数的子类,True对应1,False对应0,但它们主要用于逻辑判断。值:True:代表...

记oracle日志挖掘实操&查询归档不正常增长情况(一)

问题:最近几周经常手动删除归档日志,归档日志报空间不足(预留800G空间已用完),基于此查询归档日志情况(近期业务有所上涨)。-----------------------------此为回溯操作流程...

每天自动备份Oracle数据库(定时备份oracle数据库)

本文以CentOS7.6系统与Oracle11g为例,教你如何在Linux下设置每天自动备份Oracle数据库。一.先找到数据库的环境变量如果是在root账户下,须先登录到数据库所在账户suor...

避坑指南:KingbaseES Oracle模式中隐藏的"双Date"玄机

在数据库开发中,日期时间处理是高频操作场景。当您从Oracle迁移到国产数据库时,是否遇到过这样的困惑:...

ORACLE常见问题-100问(系列二)(oracle报错大全)

100.sql>startuppfile和ifile,spfile有什么区别?pfile就是Oracle传统的初始化参数文件,文本格式的;...