深入了解Hadoop

Hadoop名字的由来

作者：Doug cutting
Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名

深入了解Hadoop

Hadoop的概念:

Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算框架
允许使用简单的编程模型跨计算机集群分布式处理大型数据集
可扩展: 从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储
可靠的: 不依靠硬件来提供高可用性(high-availability)，而是在应用层检测和处理故障，从而在计算机集群之上提供高可用服务

Hadoop能做什么?

搭建大型数据仓库
PB级数据的存储处理分析统计等业务(搜索引擎日志分析数据挖掘商业智能(Business Intelligence，简称：BI)

深入了解Hadoop

深入了解Hadoop

Hadoop发展史

- 2003-2004年 Google发表了三篇论文

- GFS：Google的分布式文件系统Google File System

- [MapReduce](https://en.wikipedia.org/wiki/MapReduce): Simplified Data Processing on Large Clusters

- BigTable：一个大型的分布式数据库

Hadoop发展史

2003-2004年 Google发表了三篇论文GFS：Google的分布式文件系统Google File System MapReduce: Simplified Data Processing on Large Clusters BigTable：一个大型的分布式数据库
2006年2月Hadoop成为Apache的独立开源项目( Doug Cutting等人实现了DFS和MapReduce机制)。
2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
2008年4月— 赢得世界最快1TB数据排序在900个节点上用时209秒。
2008年— 淘宝开始投入研究基于Hadoop的系统–云梯。云梯总容量约9.3PB，共有1100台机器，每天处理18000道作业，扫描500TB数据。
2009年3月— Cloudera推出CDH（Cloudera’s Dsitribution Including Apache Hadoop）
2009年5月— Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
2009年7月— Hadoop Core项目更名为Hadoop Common;
2009年7月— MapReduce和Hadoop Distributed File System (HDFS)成为Hadoop项目的独立子项目。
2012年11月— Apache Hadoop 1.0 Available
2018年4月— Apache Hadoop 3.1 Available

搜索引擎时代

有保存大量网页的需求(单机集群)
词频统计 word count PageRank

数据仓库时代

FaceBook推出Hive
曾经进行数分析与统计时, 仅限于数据库,受数据量和计算能力的限制, 我们只能对最重要的数据进行统计和分析(决策数据,财务相关)
Hive可以在Hadoop上运行SQL操作, 可以把运行日志, 应用采集数据,数据库数据放到一起分析

数据挖掘时代

啤酒尿不湿
关联分析
用户画像/物品画像

机器学习时代广义大数据

大数据提高数据存储能力, 为机器学习提供燃料
alpha go
siri 小爱天猫精灵

展开阅读全文

页面更新：2024-04-22

标签：棕黄云梯分布式发展史节点画像集群文件系统数据仓库机器数据库计算机项目时代数据数码

Python图片转字符串

环境是Windows 10 + Python 2.7 + PyCharm本次项目牵扯的图片处理，所以用到的模块有Pillow，其次使用的命令行参数模块optparse。步骤一、创建项目“20171206”二、导入需要用到的模块三、字符画用到的字符集如下：四

Python+matplotlib动画演示转盘抽奖过程

转盘抽奖，就是把一个圆盘划分成多个扇形区域，不同大小的区域表示不同等级的奖品，然后转动转盘后慢慢停下，指针所指即为中奖情况。运行程序后，绘制一个饼状图模拟转盘上的奖项划分，绘制一条直线段模拟转盘上的指针，指针从水平

Python 3.8 已经来了，你准备好了吗？

Python 3.8过去几年，在编程语言领域 Python 可谓大红大紫。开发者对于这门语言的热情也推动了Python 语言的的快速发展。自2015年开始，Python 几乎以每年一个主要版本的速度不断的演进。我们注意到在Python 官网上悄然

金融行情软件演示

1、策略回测应用MACD指标的交易信号，查看在历史数据的表现情况：选择策略的逻辑选择回测的时间区间运行策略查看分析结果（了解）盈亏比：总盈利/总亏损涨跌幅分布历史明细查看同花顺软件主要提供别人查看行情信息，不

算法实现：User-Based CF 预测评分

评分预测公式：算法实现实现评分预测方法：predict 实现预测全部评分方法：predict_all 添加过滤规则根据预测评分为指定用户进行TOP-N推荐：

基于协同过滤的电影推荐

数据集下载MovieLens Latest Datasets Small建议下载ml-latest-small.zip，数据量小，便于我们单机使用和运行目标：根据ml-latest-small/ratings.csv（用户-电影评分数据），分别实现User-Based CF和Item-Based CF，并进行电影评分

代码能跑就不要动，为什么我们都会有这样的想法？

为什么程序员会有代码能跑就不要动的观点？今天就和大家说说这个有趣的话题。针对这个问题某乎上有个小哥讲了一个小故事，先分享给大家：新来的程序员小哥觉得代码不规范，内存释放的模块很混乱。这可能有隐藏的风险

别人的1024程序员节VS你的1024程序员节

1024程序员节是广大程序员的共同节日。1024是2的十次方，二进制计数的基本计量单位之一。针对程序员经常周末加班与工作日熬夜的情况，部分互联网机构倡议每年的10月24日为1024程序员节。到今年，已经是程序员们过的第8个程

新裤子彭磊：一个摇滚中年的自救指南

作者：万芳微信公众号：首席人物观（ID:sxrenwuguan）012014年2月11日，彭磊的女儿出生了。彭磊给襁褓里的女儿盖上了自己身上的皮褛，说“希望你成为一代名媛”。但没过几个小时，他就崩溃了。“她刚出生几个小时开始大哭，我是第一

疑似李彦宏泼水者身份曝光，曾在微博直播入场

7月3日上午，2019年百度AI开发者大会举行，现场李彦宏演讲开场。演讲过程中，突然有观众冲上演讲台向李彦宏头部倒了一瓶水。李彦宏先是一愣，后来用英语问到：What's your problem？突然被人泼水，导致现场演讲中断，李彦宏浑身湿透，

知乎牵手百度快手，能干得过字节跳动吗？

作者：江岳微信公众号：首席人物观（ID:sxrenwuguan）0128岁的记者周源坐在了 Macworld 大会第四排。这场几万人的大会从清晨5点就开始排队了，这还只是第一步。当三楼大门在8点半开启时，所有人都会拿出逃命的架势奔袭——那才

李彦宏的风度，AI的温度

作者：江岳来源：首席人物观（ID:sxrenwuguan）01当水流顺着头发浇湿李彦宏的白衬衣时，国家会议中心的千人会场瞬间安静。所有人开始等待李彦宏的反应，或者说，爆发的那一刻——这位互联网圈颜值最高的大佬在公众面前永远温和儒

李国庆和妻子开撕：公开表示一辈子不能原谅俞渝

从主动“禅让”，到被动夺权，再到李国庆认为俞渝不按规则出牌的股权异动，如今已重新出发再创业的李国庆，近日在接受商业新媒体海克财经专访时，仍一肚子怨气。他说，有些事情，他一辈子都不会原谅俞渝。公开资料显示，李国庆与俞渝

京东数科CEO陈生强：金融科技必须进入下半场

7月16日，京东数字科技携手《中国经营报》，在北京举办“金融科技下半场——第一届资管科技行业高峰论坛”。会上，京东数字科技CEO陈生强发表“金融科技下半场共建大资管新生态”主题演讲，他认为金融科技开始进入下半场，金

汽车迭代惹恼用户，何小鹏到底冤不冤

作者：万芳微信公众号：首席人物观（ID:sxrenwuguan）2017年2月16日，何小鹏刚刚为自己的儿子剪了脐带，一出产房，就接到了来自GGV的符绩勋的电话。电话那头说，“小鹏，汽车的赛道已经打开，如果你不冲进去，再过一两年，这个赛道就关闭了

上滑加载更多 ↓

推荐阅读：

2021年我推荐给你这些高质量计算机书籍

手机不用了，如何消除里面的数据和信息而又不被人可以恢

小米公布数据，外媒表示不可思议，雷军：这是战略里程碑

秦昊火了，但那个文艺片时代已经远去了

教培人，真的要被时代抛弃了吗

稳定币归零！USDM项目方发动Rug Pull卷走4600万美元

暴涨数千倍后5分钟“跌没”，“鱿鱼币”项目方跑路

美国豪夺机密数据，继三星后，台积电也“跪了”…众怒背后

项目1：初识计算机家族

项目10：WPS入门教程教学视频—班级标语

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top