数据技术:资源、队列与集群
前几天,壮实在网上冲浪的时候,收到一个目瞪狗呆的提问邀请。
第一反应是,握草,这算法是把“身价”和“负债”整混了吧……
不过,定睛一看,好啊,这不就是人民大众喜闻乐见的话题吗?
好吧,看看你国凡尔赛文学的水平发展的如何。
当我津津有味的欣赏时,直到我看到最后一句:
好家伙, 2080的显卡?不同意?
身价千万的有钱人装逼失败,下一个。
还2080,爱他,就给他3090!
啥是2080?那今天文章你一定要看啊!
不然被假冒高富帅套娃啊!
好啦,今天壮实跟大家聊聊数据背后的底层技术:资源、队列和集群。(内涵2080是啥)
1、资源
每天,有大量的数据查询任务需要在机器上完成运行,这就需要高功能的计算机——服务器来完成。
所以我们常说的资源就是服务器资源,物理表现形式就是物理机。如下图:
那么:
广泛定义上,资源包括服务器资源和网络。
狭义定义上,资源是指服务器资源中的 内存、CPU、显卡等。
CPU和内存是一组概念,GPU和显存是一组概念。
CPU和GPU都是用于计算,内存和显存都是用于存储,相应的计算对应相应的存储。
●CPU:CPU(Central Processing Unit,中央处理器)是解释计算机指令和处理计算机软件中数据的核心部件。
●内存:俗名是内存条。CPU在计算后会把数据存储到内存中。如电脑上显示的8G、16G,就是指内存条的容量。
CPU、内存和输入/输出设备是电子计算机三大核心部件。
●GPU:GPU(Graphics Processing Unit,图形处理器)是显卡上的一块芯片,专门进行图像运算工作的微处理器。因GPU强大的运算能力,还广泛运用于密码破解、机器学习、金融分析等领域。
●显存:显存是显卡的组成部分,主要用来存储GPU需要处理的各种数据、模型。
你知道显卡是什么吗?
显卡包括GPU、显存、电路板和BIOS固件,GPU是显卡的核心。
如果你清楚口红对于女生的意义,那你就能get到显卡对于男生的嗨皮。
简单来说,计算机按上显卡,就会让游戏画质更清晰、操作更流畅。
双12、圣诞节、元旦、新年、情人节就要到了,你可以挑一个好节日送给他显卡。
好的,型号都给你准备好了!!!较好的配置就是3个sk2礼盒的价格!
2080和3090都在里面了……
2、队列
随着公司的数据量越来越大,出于节省成本的考虑,就需要考虑 每个业务线需要多少机器(机器背后资源);这些资源如何分配;分配后,这些资源使用的先后顺序等等问题。这时,就需要进行「资源管理」。
有的资源管理会用到「队列」这种方式,队列可以帮助划分离线计算任务先后运行的顺序,达到计算过程中使用的资源可管理。
如上图所示,假设有4个离线计算任务同时在跑。如果队列上只能跑3个任务,那么队列就被跑满了,第4个任务就需要等待队列空余,才能继续跑了。
除此之外,还有链式队列、双端队列、循环队列等等的队列处理顺序的方式,我们大致介绍一种符合FIFO(先进先出)的队列处理方式,以供参考。
3、集群
集群是一种多维度管理资源方式,它按业务线划分,划分方式跟公司对资源的管理方式有关。
1)计算集群
实时计算集群
类型:storm、kafka、flink集群
离线计算集群
类型:hadoop集群
2)存储集群
3)机器学习集群
综上所述,我们简单的来理解:
1.资源就是数据在计算、存储所消耗的资源,物理表现进行就是机房中的物理机。
2.队列就是资源消耗&使用如何分配的一种规则。
3.集群是多维管理资源的方式。
4、彩蛋:互联网大厂耗电量秘史
而根据Google曾经公布用电量数据,2010年Google用电量22.6亿千瓦时。
对比2010年北京市年用电量为809.902亿千瓦时。Google2010年的用电量会占到北京市一天总用电量的3%。
当然,据我所致,现在的大厂已经降低到%零点几了,但是这些物理机器一天消耗的电量,还是可供3万多人使用24小时。
所以,互联网还真是讲规模效应的一个行业~
要不,电费,也挺贵的……
引用数据:
《北京市统计局:2018年常驻人口2154.2万人 同比下降0.8%》
《北京全社会用电量情况》
-End-