- 浏览: 245162 次
- 性别:
- 来自: 深圳
最新评论
-
letian611:
...
滴滴背后的大数据应用 -
MCLoginandPwd:
分享一款代码生成器,拖拽式组件结合流式处理,很容易的访问数据库 ...
Docker和hadoop -
rashly:
可以跟你加个好友吗
智能调度:Stanford的Quasar -
rashly:
请问你有没有quasar的源代码
智能调度:Stanford的Quasar -
jiezhu2007:
主要讲架构的书
为什么写《大数据架构详解》这本书
文章列表
1、Chronos来源
Chronos现在是一家初创公司 Mesosphere在维护,该公司的联合创始人是前Airbnb的工程师Florian Leibert(也曾在Twitter工作过)和Tobias Knaup。 Chronos在Airbnb是用来替代cron,是一个跑在mesos上的分布式的,可靠的调度scheduler
1. 什么是实时分析(在线查询)系统?
大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点:
a. 时延低(秒级别)。
b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。
c. 查询范围大(通常查询表记录在几十亿级别)。
d. 返回结果数小(几十条甚至几千条)。
1. Kafka的作用
在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。有没有一个系统可以同时搞定在线应用(消息)和离线应用(数据文件,日志 ...
一、OTT
OTT 是“Over The Top”的缩写,是通信行业非常流行的一个词汇,这个词汇来源于篮球等体育运动,是“过顶传球”之意,指的是球类运动员(player)
1 资源调度的目标和价值
1.1 子系统高效调度
任务之间资源隔离,减少争抢。 任务分配调度时结合资源分配,各个任务分配合理的资源,充分利用系统资源,减少资源利用不充分的问题。 资源调度结合优先级,优先级高的分 ...
大学里面数据结构里面有专门的一章图论,可惜当年没有认真学习,现在不得不再次捡起来。真是少壮不努力,老大徒伤悲呀!什么是DAG(Directed Acyclical Graphs),先来看下教科书上的定义吧:如果一个有向图无法从某个顶点 ...
今天想聊聊GitHub,最近几天突然发现我厂突然clone了一个GitHub托管站点。(当能这个再次凸显了我厂的封闭,外面热闹的东西,clone了不少,如微博,博客给厂工用,厂工还玩得不亦乐乎。O(∩_∩)O~),上去看了看,还有几个项目。
作为厂工一员,了解GitHub比较晚,惭愧,了解GitHub因为李开复:
2013.1.15日晚间,GitHub突然疑似遭遇DDOS攻击,访问大幅放缓,后经网站管理员日查询日志,发现是来自12306的抢票插件用户洪水般的访问导致GitHub出现问题。
2013.1.23创新工场董事长兼首席执行官李开复昨天晚些时候在微博上抗议封锁GitHub。
讲 ...
1、说明
Mesos是一个集群资源管理的软件,利用它可以实现多种并行计算框架对于同一个集群资源的共享和利用。从而提高资源的使用效率,节约成本!本文是参考网上一位兄弟的安装,结合自己的环境,整理的安装指导:
2、软件准备
环境:
有三台机器IP地址分别为:
75,76,79
1 frameworks开发指南
这个文档中,我们称Mesos的应用为”framworks”。
In this document we refer to Mesos applications as “frameworks”.
Mesos支持java,python,c++。可以从MESOS_HOME/src/examples/找对应的例子,搞明白framework的scheduler和executor
1,平台选数据仓库还是hadoop
甘特把大数据定义为三个V(高容量,髙速度,多类型),主要讲的是数据量大的问题,传统的数据库在处理结构化,容量有限的数据有非常大的性能优势。碰到数据量大到一定程度,且对实时性要求 ...
1;PC出货量下降百分之七,平板电脑出货挤占了PC的出货。随着穿戴设备发展,职能家电等各种智能的发展。在可以遇见的未来,PC的功能会逐渐弱化,有一天PC会变成专业设备。
2;对消费者电子设备来说,硬盘死期将至。硬盘的今天就是磁带的昨天。传统硬盘,速度和体积已经严重不适合消费者电子领域使用。
3;随着云计算发展。摩尔定义已经不合时宜,云会释放终端性能增长的压力。一个更快的网络和更丰富的应用才是大家急需的。
4,sdn软件定义网络,随着网络带宽日渐不满足需求,原有网络组网天生的缺陷终于被提上了台面,控制和数据不分离,导致QOS实现非常困难。电信总工韦乐平很早就提到IT会借鉴CT的控制思路, ...
1 存储衡量指标:
容量:决定因子是硬盘个数,单盘容量
IOPS:决定因子磁盘个数,cache命中率,阵列算法
I/O响应时间:R=T/(1-U) R是响应时间 T是I/O控制器服务一个块所用时间,U是硬盘利用率。
吞吐量:决定因子是阵列架构,光纤通道大小,硬盘个数
2 IOPS计算方法
IOPS:IO系统每秒所执行IO操作的次数。
2.1 IOPS计算方法:
IO Time = Seek Time + 60 sec/Rotational Speed/2 + IO Chunk Size/Transfer Rate
于是我们可以这样计算出IOPS
I ...
1.一体机是当前大数据的主要方式
当前数据库重要的玩家如oracle,ibm,teradata,基本推出一体机解决方案。所谓一体机即软硬件一体化,软件厂商对特定硬件做特定调优,以追求性能最优。一体机对客户的重要价值是,集成度高,性能好,使用和维护简单,缩短工程交付时间。同时一体机由于软硬件绑定在一起,客户无法使用已有的硬件,存在重复投资,投资高的缺点。
一体机是目前技术限制下一种选择,短时间还有很大的市场增长空间,有实力的厂商会纷纷进入这个市场。
2.虚拟化技术是未来重要的方向
当前火爆的云,主要基于虚拟化技术。通过虚拟化技术,硬件资源不再孤立,可以灵活分配和使用。
虚拟 ...
内存引擎:SanssouciDB
- 博客分类:
- 数据库和存储技术
SanssouciDB
1、内存计算,每台节点都选择高端机器,典型的配置有2TB内存,64个CPU
主要原因是同等处理能力下,减少集群规模,这样可以减少网络的消耗。
2、SanssouciDB是一个 shared-nothing 和shared-memroy的混合结构,每个实例和每个节点负责固定分区的数据。所以从整个集群来看,整个集群式shared-nothing的结构,从单个节点来看,多个核访问共享的存储。所有节点连接共享存储,可以使NAS,或者SAN,主要是用来存放日志和恢复。
3、并行无所不在:
节点之间分布式查询引擎
- 2013-07-28 19:30
- 浏览 2060
- 评论(0)
spark overview
- 博客分类:
- hadoop技术专栏
1、 Resilient Distributed Datasets(RDDs)
Immutable,partitioned collections of objects
不可变,对象分区
Created through parallel transformations(map,filter,groupBy,join…) on data in stable storage
在固定存储上的数据创建并行转换
Can be cached for efficient reuse
数据cache在内存中为再次重用
2、 RDD Fault Tolerance ...