长篇鬼故事 - 【dwd022】大数据的技术概念

2023-04-27 18:56:23 阅读 : 次

编辑导游词：相信大家平时用大数据处理产品时，会被各种专业技术名词弄得晕头转向，傻傻分不清。在这篇文章中，作者总结和分类了大数据中常用的一些技术名词。感兴趣的小伙伴也来看看，也许会被使用。

在大数据处理产品中经常遇到技术名词，这里概括整理。

一、数据源类型

1. 宽表 VS 窄表

宽表：表示包含大量字段的数据库表。通常是指与业务主体相关的指标、纬度和属性相关联的数据库表。

广泛应用于数据挖掘模型培训前的数据准备，将相关字段放在同一张表中，可以极大地提供数据挖掘模型培训期间反复计算的消息问题。

数据查询效率提高了，但有很多重复。

窄表：严格按照数据库设计的三种范式。虽然减少了数据重复，但可能需要修改多个表才能修改一个数据。

数据库设计的三种范式：

确保每一列保持原子性。检查表中的每一列是否与主键相关。确保每个列不是间接相关的，而是直接与键列相关的。

2. MySQL

MySQL是一个关系数据库管理系统，它将数据存储在单独的表中，而不是将所有数据放在一个大仓库中，从而提高了速度和灵活性。是目前最流行的关系数据库管理系统之一。

3. Oracle

Oracle是关系数据库管理系统。是数据库领域一直处于领先地位的产品，系统可移植性强、易用性好、功能出色，适用于各种大、中、小型微机环境。

是适应高效、可靠、高吞吐量的数据库方案。

4. GBase

GBase是南大通用数据技术有限公司推出的自有品牌的数据库产品，在国内数据库市场具有很高的品牌知名度。

5. HBase

h基础是分布式的面向热量的开源数据库。

与普通关系数据库不同，它是非结构化数据存储的理想数据库。另一个差异是HBase是基于列的模式，而不是基于行的模式。

6. FTP

文件传输协议(FTP)是用于访问远程资源的网络文件传输标准协议，允许用户往返于文件、目录管理、电子邮件访问等领域。

7. HDFS

HDFS是Hadoop分布式文件系统，旨在将HDFS部署到容错能力高、成本低的硬件上。

它还为具有大型数据集的应用程序提供了适用于应用程序数据的高吞吐量。

二、数据计算

1. MaxCompute

MaxCompute是一项大型数据计算服务，可提供快速、完全托管的Pb级数据仓库解决方案，以经济高效地分析和处理大量数据。

2. Flink

Flink是对无限和边界数据流执行状态计算的框架和分布式处理引擎。

Flink设计为在所有典型群集环境中运行，无论内存速度和规模如何，都可以执行计算。

3. Kafka

Kafka是一种吞吐量高的分布式发布订阅消息系统，可以在网站上处理消费者的所有动作流数据。

4. 离线计算 VS 实时计算

离线计算：也称为“批处理”，是指离线批处理和高延迟的静态数据处理过程。

离线计算适用于离线报告、数据分析等实时要求不高的场景。通用计算框架：MapReduce、Spark SQL

实时计算：也称为“实时流计算”、“流计算”，是指实时或低延迟的流数据处理过程。

实时计算通常适用于实时要求较高的场景，如实时ETL、实时监控等。典型计算框架：Spark Streaming，Flink

5. OLTP VS OLAP

网上交易处理(OLTP):可以说是网上交易，一般适用于网上商业交易系统，如银行交易、订单交易等。

OLTP的主要特点是能够支持频繁的在线操作(进一步删除)和快速访问查询。

线上分析处理(on-line analytical processing，Olap):可称为线上分析处理，重点是将更多应用程式套用至资料仓储区域、支援复杂查询的资料分析，以及为业务提供决策支援。

目前，实时OLAP场景很常见，Druid(不同于Apache Druid、Aridruid)、ClickHouse等存储组件可以更好地满足需求

三、分散相关性

1. Hadoop

Had

oop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

2. HDFS

HDFS是一个Hadoop分布式文件系统。详情在上一小节中已介绍。

3. hive

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载。

这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

4. MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

概念”Map（映射）”和”Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。

它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

5. Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎，类似于Hadoop MapReduce的通用并行框架，拥有Hadoop MapReduce所具有的优点；

但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

四、数据仓库

1. 简介

数据仓库（全称：Data Warehouse；简称：DW/DWH），是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的。

它是一整套包括了ETL（extract-transform-load）、调度、建模在内的完整的理论体系。

2. 与数据库的差异

数据仓库是专门为数据分析设计的，涉及读取大量数据以了解数据之间的关系和趋势。而数据库是用于捕获和存储数据。

3. 分层

ODS（Operation Data Store）：数据源头层，数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层（可理解为原始库），是后续数据仓库加工数据的来源。数据来源：业务库、埋点日志、消息队列。
DWD（Data Warehouse Details ）：数据细节层，是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗和规范化的操作。数据清洗：去除空值、脏数据、超过极限范围的。
DWB（Data Warehouse Base）：数据基础层，存储的是客观数据，一般用作中间层，可以认为是大量指标的数据层，可理解为知识库字典、常用标准库。
DWS（Data Warehouse Service）：数据服务层，基于DWB上的基础数据，整合汇总成分析某一个主题域的服务数据层，一般是宽表。用于提供后续的业务查询，OLAP分析，数据分发等。
ADS（ApplicationData Service）：应用数据服务，该层主要是提供数据产品和数据分析使用的数据，一般会存储在ES、mysql等系统中供线上系统使用。

4. 数据地图

以数据搜索为基础，提供表使用说明、数据类目、数据血缘、字段血缘等工具，帮助数据表的使用者和拥有者更好地管理数据、协作开发。

5. 数据血缘

即数据的来龙去脉，主要包含数据的来源、数据的加工方式、映射关系以及数据出口。

数据血缘属于元数据的一部分，清晰的数据血缘是数据平台维持稳定的基础，更有利于数据变更影响分析以及数据问题排查。

本文由@丸子不爱吃丸子原创发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于CC0协议

本文标题：【dwd022】大数据的技术概念 - 长篇鬼故事
本文地址：http://www.guigushi.cc/changpianguigushi/21344.html

上一篇：泰航起飞前爆炸声检查发现爆炸声从发动机传出下一篇：很抱歉没有了

马蒂斯海洋动物画和创意剪纸作品

首先要说明的是什么是野兽派。1905年36岁的马蒂斯参与了巴黎秋季沙龙美术作品展，在揭幕的时候，一位名叫路易·沃塞尔的批评家被一幅幅用纯色随意涂抹成的油画惊呆了。当时展室中间有一尊多那太罗的雕像，批评家指着雕像开玩笑说“多那太罗被野兽包围了?币蛭庖幌费裕哟宋鞣矫朗跏飞铣鱿至艘桓稣感碌牧髋伞笆夼桑? /> 2022-12-04 长篇鬼故事
马航MH370最新进展：真相究竟是什么神秘线索被瞒天过海

沉寂已久的马航大案，终于在近期有了最新进展! 在事态逐渐被人淡忘的时刻，又有内幕人士出来爆料，表示马航事件另有内幕，当局政府涉嫌隐藏神秘线索，意图瞒天过海，掩盖真相。...
2022-12-03 长篇鬼故事
相宜本草消痘修护凝胶,相宜本草的那个消痘修护凝露效果好伐？

相宜本草的那个消痘修护凝露效果好伐？效果很好的，我就在用相宜本草消痘修护凝胶。最好和那个消痘调理水搭配用。又能去痘痘，还能去痘印。我用过不少去痘的产品。对这个最满意...
2022-12-20 长篇鬼故事
关于torrentkittycom我想说5个超实用的网站，保证有一个值得你收藏（干货）

torrentkittycom相关介绍,[96]1.草料队列(QR)代码生成器通过该网站，您可以直接创建DIY想要的COAL(QR)代码、文本、网址、图片等内容，还可以更改其他样式，还可以下载一键创建的COAL(QR)代码照片。草料二...
2022-12-06 长篇鬼故事
【武魂玩什么职业好】哪些魂师最刚？盘点《斗罗大陆：武魂觉醒》防御系魂师

武魂玩什么职业好相关介绍,《斗罗大陆：武魂觉醒》手游上线后，原作中的经典人物接连登场。游戏中的魂师被分为攻、辅、敏、控、防五个职业。今天就和大家一起盘点一下几位防御系的传说级魂师。　　防御NO.1：不动明王赵无极　　说到...
2023-01-20 长篇鬼故事
异星觉醒豆瓣《异星觉醒》豆瓣评分7.1，被群嘲长得像异形？

作为一个拍的很烂的外星人梗，前面有“外星人”祝语，后面有“降临”，“外星人觉醒”更像是夹在中间的半生不熟的产物。但是导演拍过《死水》、《僵尸之地》、《僵尸天堂》，所以不得不往下看。不过作为一个逃出密室的家伙，相信这部电影还是会让大家喘不过气来的。宝哥买了周五的票，准备流汗了。但是是否真...
2023-02-20 长篇鬼故事
姐姐好饿黄渤小 S 的新节目《姐姐好饿》，第一期嘉宾是黄渤

蔡康永之后，小S也来到了爱奇艺。小S要开网络综艺的消息传了很久。本周四7月21日晚9点，爱奇艺将播出这个名为《姐姐好饿》的节目。每周每期都会有男明星客串，一边做饭一边接受小S的采访。19...
2023-02-06 长篇鬼故事
27岁包租婆坐拥400栋楼每月收租2亿？满墙钥匙曝光网友酸了

5月4日，93年“包租婆”D姐拥有400栋楼的消息火遍全网。故事的主人公叫D姐，出生于1993年，从2013年开始，20岁的她开始投资房产。时至今日，在广州白云区，经过她的打拼，竟...
2022-11-10 长篇鬼故事
乒乓球世界杯团体赛 2019乒乓球团体赛世界杯CCTV5直播时间表、赛程

2019乒乓球团体世界杯将于11月6日至10日在日本东京举行。中国队派出、徐昕、范振东、林、梁静坤、丁宁、刘、陈蒙、孙和等10人参加了2019年团体世界杯。央视CCTV5频道从11月6日开始播出球队世界杯。以下是201...
2022-12-25 长篇鬼故事
深渊派对通行证悬空海港怎么获得看这里!6399:DNF惊喜万圣节得深渊派对通行证详解

深渊派对通行证悬空海港怎么获得相关介绍,6399:DNF惊喜万圣节深渊派对通行证详细说明。DNF惊喜万圣节活动以6399篇的编排为大家带来。想知道本期DNF惊喜万圣节活动内容都有哪些吗？DNF惊喜万圣节活动地址又是什么呢？快随小编一起来看...
2023-04-20 长篇鬼故事

【dwd022】大数据的技术概念 - 长篇鬼故事 - 鬼故事网(guigushi.cc)

长篇鬼故事 - 【dwd022】大数据的技术概念

1. 宽表 VS 窄表

2. MySQL

3. Oracle

4. GBase

5. HBase

6. FTP

7. HDFS

1. MaxCompute

2. Flink

3. Kafka

4. 离线计算 VS 实时计算

5. OLTP VS OLAP

1. Hadoop

2. HDFS

3. hive

4. MapReduce

5. Spark

1. 简介

2. 与数据库的差异

3. 分层

4. 数据地图

5. 数据血缘

相关文章

马蒂斯海洋动物画和创意剪纸作品

马航MH370最新进展：真相究竟是什么神秘线索被瞒天过海

相宜本草消痘修护凝胶,相宜本草的那个消痘修护凝露效果好伐？

关于torrentkittycom我想说5个超实用的网站，保证有一个值得你收藏（干货）

【武魂玩什么职业好】哪些魂师最刚？盘点《斗罗大陆：武魂觉醒》防御系魂师

异星觉醒豆瓣《异星觉醒》豆瓣评分7.1，被群嘲长得像异形？

姐姐好饿黄渤小 S 的新节目《姐姐好饿》，第一期嘉宾是黄渤

27岁包租婆坐拥400栋楼每月收租2亿？满墙钥匙曝光网友酸了

乒乓球世界杯团体赛 2019乒乓球团体赛世界杯CCTV5直播时间表、赛程

深渊派对通行证悬空海港怎么获得看这里!6399:DNF惊喜万圣节得深渊派对通行证详解

你可能感兴趣

推荐文章

热门浏览

相关栏目