如何从一个大文件中分离出小文件

背景

 facebook目前存储了2600亿张照片，总大小为20PB，每张照片约为80KB。
 用户每周新增照片数量为              
10亿。（总大小60TB），平均每秒新增3500张照片（3500次写请求），读操作峰值可以达到每秒百 
万次。

考虑到一台标配的服务器的硬盘是10TB，理论上可以存 10TB/80KB=1.3亿张左右的照片。

然而linux服务器的文件索引的设计最多只支持500w左右的文件数，如果超过500w，性能会大幅下降。

在普通的linux文件系统中，读取一个文件包括三次磁盘io:首先读取目录元数据到内存，
其次把文件 中的inode节点装载到内存，最后读取实际的文件内容。由于小文件个数太多，
无法将所有的目录以及文 件的inode信息缓存到内存，                                                                                                                                                                                          
因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。

因此，facebook的图片存储系统haystack设计采用的思路是: 多个逻辑图片文件共享一个物理文件。

 1个物理文件的大小=32MB。因此linux服务器中的文件个数在                                                            
 10TB/32MB=1024*1024/32=327680..远远小于linux服务器的文件索引的阈值。

  照片文件在物理文件中的存放为依次的顺序存放。每个照片文件的存放规格如下:

 - 1字节的标记位。0代表接下来的照片仍然可用，1代表接下来的照片已经被删除，2代表该物理文件接下来已经没有图片了。

 - 4字节的size。标记照片的大小x。

 - x字节，照片文件本身。

实现

文件已经到手，现在的目标是，根据规则，将文件的所有图片解出。

读取，循环，写入即可。

代码:

 var fs = require('fs');

var d = fs.readFileSync('rf.data');
var b = new Buffer(d);
var c = 0;
for(var i=0;i

将BUFFER 转成字符串，buffer内为16进制的，转成string ,则调用Buffer.toString('hex');



获得16进制的字符串，然后将字符串转化为10进制的数字




展开阅读全文

页面更新：2024-03-18

标签：文件   字符串   字节   磁盘   标记   个数   索引   大小   物理   内存   代表   服务器   照片   目录   数码   图片


1
2
3
4
5




	
		
		
		
		
			
			微信聊天记录图片还可查看？
			
			
			微信聊天记录加密图片查看通常聊天窗口收到的照片在PC端会被加密后保存为 dat 文件发现一款软件直接支持查看dat文件不用登录微信在线解码的地址：http://www.sdxlp.cn/tool/wechatdat好不好用，先试试再说。就可以查看存
			
		
	
	
		
		
		
		
			
			Game Master文字加背景图生成图片
			
			
			 一般来说图片处理的话使用 gm 还是用得比较多的，可是碰到了问题。const gm = require('gm');
gm(200, 100, "#4499ee")
.font('./font.ttf')
.drawText(10, 50, "中文")
.write("./coll/test.png", function (err) {
			
		
	
	
		
		
		
		
			
			PDF转换jpg实操步骤介绍
			
			
			网页上有很多都是打着免费的转换，可是质量是没有保证的，文件也会泄密的。有些付费的只是一次转换而已，后期还需要付费。还有先免费几次，尝到甜头的咱们就会去付费，人都是有惰性的，商家就是利用了这点。支持系统：win7/win8/wi
			
		
	
	
		
		
		
		
			
			pc端微信用户图片DAT格式解码为图片
			
			
			电脑越来越慢，发现硬盘空间被大量占用，发现是微信自己账号下的Image文件夹引起的，因不清楚里面的图片有些是否有用，想清理一下。会代码的朋友可以看一下代码，自己做一下。不会代码的朋友可以看一下最后的结果，是否是自己想
			
		
	
	
		
		
		
		
			
			js 向富文本内容添加字符串
			
			
			工具实现： jquery代码：  addTextToDom : function(html,text){
var $t;
try{
    $t = $(html);
    if($t.length == 0){//全中文
        $t = $(''+html+'')
    }
}catch(e){
    //如果出现报错，基本上可以确认外层
			
		
	
	
		
		
		
		
			
			微信新功能，好用到爆
			
			
			随着网上购物的普及，咱们收发快递的次数也越来越频繁，而且收发快递一旦堆积太多，总感觉乱糟糟的，不知道自己有多少快递需要收发。现在不怕了，因为有【微信一键寄快递】，问题迎刃而解。 以前想要给自己的朋友寄快递，在微信问
			
		
	
	
		
		
		
		
			
			PC电脑端微信图片dat解码
			
			
			想删除视频简单，能看到，图片就难了，是加密的。办公原因，微信开着，发现目录的体积是越来越大，特别是群多的，视频分享一堆，还自动下载。php版本的解码图片并删除的代码，毕竟有的图片还是有收藏价值的。此代码有一个缺陷就是不能
			
		
	
	
		
		
		
		
			
			怎样自己实现一个web前端分页
			
			
			                                  分页/=======================分页样式==================================/                      /*分页样式*/  

                     .page{  

                     displ
			
		
	
	
		
		
		
		
			
			微信加密图片如何查看
			
			
			软件说明PC微信会下载图片到本地存储，会为.dat后缀的文件进行加密，保护文件。通过异或的方法对文件进行简单地加解密的方法很常规的做法。微信将收取到的文件，对每个字节进行异或加密，保存为dat文件。其中异或的值为反推
			
		
	
	
		
		
		
		
			
			微信电脑版单个dat文件的查看
			
			
			dat并不是一种标准文件。虽然许多文件都使用这个扩展名，但文件含义不同。计算机中的dat文件主要分为两种：一种是纯文本文件，类似于TXT文件，可用记事本、写字板、UE等工具打开。一种是多媒体数据文件，可用XINGPEG、金山影霸
			
		
	
	
		
		
		
		
			
			怎样快速地给图片批量加水印
			
			
			生活中会碰到给图片加水印的情况，这时候如果一张一张的添加，会非常麻烦，还会耗费很多的时间，极大的影响工作效率。有时候会用到咱们的身份证，人像啊去申请，这就用到了水印，可以极大的保护咱们的隐私，只要打上某某公司某某平台
			
		
	
	
		
		
		
		
			
			2019.4月风冷和水冷(一体水冷/分体水冷)的区别以及应该怎么选择
			
			
			风冷分为塔式和下压式。建议尽量选择智能温控的型号。水冷分为一体水冷和分体水冷。风冷和水冷应该怎么选：低端水冷散热和静音效果都不如同价位风冷。简单点可以理解为300元以下的一体水冷不如直接考虑同价位的风冷。
			
		
	
	
		
		
		
		
			
			微信如何使用青少年模式
			
			
			1.打开青少年模式设置操作步骤如下：第一步：打开微信主页面，点击【我】-【设置】。 第二步：点击【青少年模式】。 第三步：仔细查看页面提示和使用条款后，勾选【我已阅读并同意《微信青少年模式功能使用条款》】。 第四步：点击
			
		
	
	
		
		
		
		
			
			教你用thinkjs框架怎样实现微信支付？
			
			
			想做微信/支付宝支付很久了..怎奈需要的资质太多，只能慢慢申请，等待，审核..终于下来了。本篇文章主要从个人的角度简单介绍下微信支付开通及通过nodej的thinkjs框架来搭建的微信支付的流程和相关的函数。代码这块可能不
			
		
	
	
		
		
		
		
			
			python微信图片dat转码
			
			
			环境Python 3.6.3模块os工具程序员计算器目的通过python 实现电脑版微信中图片转码（原.dat转成JPG）图片转码 分析微信图片是用异或值加密1.先用工具打开.bat文件，但会看到一堆乱码。如下图乱码图 2.用notepad++的话可以，
			
		
	
上滑加载更多 ↓
所有内容加载完毕