阿里云大数据专业认证(ACP级)学习笔记(精简)

  • 时间:
  • 浏览:2

都也能 使用不等值连接机会or连接多个条件(普通join也能做等值连接)

分区为静态,时候静态分区也能 是高级分区。

项目空间创建者自动成为Owner。

>use yuxiang_01;

下载数据量:HTTP Body,Protobuff编码

case  when是非贪婪的,一旦碰到满足条件,立即返回。

partition开窗时,同一窗口内最多含晒 1亿行数据。

(2)按CU预付费(提前预定付费,独占且只享有购买的资源)

inner join左表或右表均可作为大表

设置ProjectProtection规则:数据也能流入,也能流出,默认为false

撤除:REVOKE <privileges> ON <object> to <subject>;

动态分区的限制:

工作流(Workflow):是个有向无环图(DAG),描述各个Task之间的依赖关系和约束。

2、没被使用的角色才都也能 被删除

阿里云大数据专业认证(ACP级)学习笔记(精简):

近百个视频精华考点总结,眼都快肿了。

2、也能设定项目空间的安全配置

多路输出multiinsert的限制:

资源Resource:资源是ODPS另有俩个 特有的概念,比如说,机会亲戚朋友 想使用ODPS的自定义函数,而是我UDF,机会是MapReduce, 这人 时候亲戚朋友 就也能 依赖资源来完成

2、将另有俩个 相关的项目空间设置为互信TrustedProject

用row开窗时,x,y也能 大于0的于整数,范围为0-100000。也能 指定order by才都也能 用rows措施指定窗口范围。支持窗口函数有:avg\count\max\min\stddev\sum,从不所有都支持。

价格:0.8元/GB

授权的另有俩个 要求:主体Subject、客体Object、操作Action

>read t_people;

转换时立即生效(如有任务要等下次运行后才生效)、CU预)转I/O后)包月费不撤除。

作业实例Instace是另有俩个 动态概念,每个实例Instace也能运行一次。

一次下载费用=下载数据量*下载价格

流计算用的是ODPS,ODPS的所有对象都隶属于项目空间。

ODPS SQL:

一次SQL计算费用=计算输入数据量*SQL繁杂度*SQL价格

Graph(图运算):图运算的特点而是我说快速迭代,而是我亲戚朋友 首先定义节点,而是我每另有俩个 节点完全后要另有俩个 运算,亲戚朋友 把这人 运算预先定义好,时候节点之间的连线亲戚朋友 叫做边,这人 边呢就描述了这人 节点之间的关系,这么另有俩个 数据过来时候,亲戚朋友 都也能 快速的使用Graph来进行这人 迭代运算

项目空间保护下的合规数据流出:

3、也能修改项目空间的鉴权模型

sort by,局部排序,也能 和distribute by合用

有string,bigint,double也能参与算术运算,datetime,boolean不允许参与运算。

3、动态生成的分区值不都也能 为NULL

rlike:正则表达式的like

所有小表占用的内存总和不得超过2G

按用户权限划分:所有者(Owner)、管理员(Admin)、普通用户(User)

SQL繁杂度:关键字个数,cost sql(用于获得繁杂度的结果)

进行不累似 型的计算任务的时候操作对象不管是输入还是输出,完全后要表。所有的数据都存储在表里,支持表分区,支持依赖于表的视图。用户都也能 创建表,删除表

order by全局排序,也能 与limit合用

>count t_people;

任务(Task):单个SQL Query机会MapReduce进程统称为另有俩个 任务。

另有俩个 ODPS SQL一句话中,最多都也能 使用5个窗口函数。

项目空间project

1、访问项目空间所有对象

3、package授权(优先级高于项目保护)

有分区的表一定要指定上传的分区

数据保护机制(项目空间保护)

资源使用时,另有俩个 进程占用另有俩个 CU,调用UDF也能 额外占用另有俩个 CU,都也能 用命令调整每个进程占用的内存。

1、将Admin角色赋给别的用户

Tunnel下载命令:

left outer join的左表也能 是大表

自定义函数:

授予:GRANT <privileges> ON <object> to <subject>;

计费周期:天

2、支持常用的SQL语法,包括窗口函数。

bigint/bigint,结果是double型

作业实例(Instace):当作业被提交至系统中执行时,该作业就会拥有另有俩个 作业实例,另有俩个 Job多次运行就会有多个实例。实例保存了执行时的快照(Snapshot)、返回情况表等。

作业完全信息:desc instance <instance id>;

使用情景:另有俩个 大表和另有俩个 或多个小表做join

对于同一分区表的不同分区,也能同去有insert overwrite和insert into操作

表table:表中的列支持Bigint长整、Double双精、String字符串、Boolean布尔型、Datetime日期类型

>list tables;

grant 权限 on 表/对象 to 用户

distribute by做hash分片

(1)按I/O后付费(作业执行后收费,共享公共的计算资源)

设置true后,各种数据导出操作将失效。

3、基于统计和机器学习的大数据统计和数据挖掘类的工作

6、每个作业的准备,提交等阶段离米 较长时间,实时性不高。

UDAF:用户自定义聚组函数。输入入多条,输出第十根。

2、进行用户与角色的管理

移除用户时,要保证该用户这么被赋予角色权限。

ODPS客户端:

>odpscmd -e "read t_people;read t_people_p;":批量执行

4、不支持事务、主外键约束、索引等。

1、基于SQL构建大规模的数据仓库系统和BI系统

AS都也能 带入数据,都也能 依赖于多张表

ODPS适用于:

)

order by也能distribute by、sort by共用

项目空间数据保护默认是关闭的。

计费单元:项目(project)

新用户:按I/0后付费,估算:存储/计算=1/6

7、长度有限制,目前是也能超过8M。

表连接join支持多路间接,但不支持笛卡尔积。只允许and连接的等值 条件,最多只支持16路join操作。

2、基于DAG/Graph构建大型分步式应用系统

1、是个数据仓库工具,Query解析后,计算和存储交由底层的飞天实现。

窗口函数

ODPS

-fd,列的分隔符

odpd-config.ini

项目用户:开发环境(按CU预付费)、生产环境(按I/O后付费)

欠费情况表超过24小后要停机。停机超过1十天,项目释放。

3、下载计费:公网、VPC、经典网络

4、机会目标表有多级分区,在运行insert一句话时允许指定每项

动态分区

角色的限制:

不支持update,delete,更新只支持insert overwrite和insert into。

机会用户还有角色,要先撤除角色,也能移除用户权限。

快速建表时,AS和LIKE的区别:

数据:

full outer join也能使用mapjoin

Admin都也能 :

通过经典网络下载、华东2VPC、华北2VPC,不收费

AS也能带入LIFECYCLE、分区键信息、注释等。

MaxCompute计量计费:

-h,列名要从不

1、设置项目保护ProjectProtection的例外策略exception,json格式

select * from a where r='1'

在第十天汇总时候的作业信息,6点出帐单,不成功的计算不计费。

5、适用于海量数据(TB/PB级别)的数据运算。

bigint、double同去参与计算时,会将bigint隐式转换为double

CU:Compute Unit,MaxCompute预留购买的资源

2、计算计费:

group by也能distribute by、sort by共用

在insert overwrite到一张分区表时,都也能 在一句话中指定分区的值,也可指定另有俩个 分区列名,但不给出值。

对于未分区表,该表也能作为目标表出先多次

1、ACL基于对象的授权

SQL价格:0.3元/GB

属性:

1、存储计费:阶梯计费。数据压缩后计费(约5倍),每小时架构设计 后计算平均值/天,存储量<512M时,1分/天

基本原理:将用户指定的小表完全加载到执行join操作的进程的内存中,从而加快join的执行下行速率 。

>list resources;

(3)计费措施转换

-dbr,(机会上传记录有错误就丢掉,默认值false,意思是出错就退出)

任务Task:任务是ODS另有俩个 基本的计算单元,无论亲戚朋友 是用ODPS SQL,机会是用MapReduce这人 功能去做许多操作的时候,实际上它完全后要在通过任务来完成的

>odpscmd

缺少角色(Admin)

2、Policy基本策略的授权

2、任意动态分区SQL不都也能 生成超过10000个动态分区。

window_func() over()

union all

对于分区表,同另有俩个 目标分区不都也能 出先多次

UDTF:用户自定义表值函数。输入第十根,输出多条。

3、都也能 看做对标准SQL的支持,时候也能简单等同于数据库。

作业是另有俩个 静态概念,作业对象对应了另有俩个 XML文件

union all最多只支持128路,子查询的列个数、名称和类型也能 要一致。顶级要用select含晒 起来。累似 :

出帐时间:以天为单位,计费周期开始后3小时内,最长不超过6小时。

1、在分布式环境下,单个进程最多也能输出51另有俩个 动态分区。

1CU:4GB内存、1核CPU、1000元/月

Mapjoin Hint:

目前最多支持指定6张小表

安全管理与授权

输入数据量:列剪裁、分区过滤

分区Partition:它设计分区的初衷是为了提高下行速率 ,亲戚朋友 在创建表的时候,都也能 指定表的分区,也都也能 在创建完成时候,去修改表的分区,比如亲戚朋友 都也能 指定表上面的某有几个字段,作为分区列

select * from a where r='2'

string在参与运算后要进行隐式类型转换到double

授权这人 措施:

相比Owner,Admin也能:

ODPS有另有俩个 包叫做PAI,它是专门集成了许多,常见的机器运算法的另有俩个 包,都也能 使用这人 工具,去做许多这人 统计类的机会这人 人工智能类机会机器学习类的这人 大型的应用

作业(Job):由另有俩个 机会多个Task以及表示其执行次序关系的工作流(Workflow)组成。

right outer join的右表也能 是大表

1、Admin角色的权限也能被修改

>odpscmd -e "read t_people;read t_people_p;" -k 2;:从第有几个开始执行

注意事项:

引用小表或子查询时,也能 使用别名

通过公网下载、华东1VPC,收费

>desc t_people;

DAG(有向无环图):而是我以工作流的措施来组织任务,来组织成另有俩个 Job,时候亲戚朋友 都也能 去执行这人 Job;

Task,Job,Instance

有分区的表一定要指定下载的分区

select * from (

支持小表为子查询

3、对用户和角色进行授权

单个SQL里最多都也能 写128路输出

把数据按照一定条件分成多组称为开窗,每个组称为另有俩个 窗口。

虽被移除了项目,但权限仍保留在项目中,若用户回归项目,自动激活原有权限。(停薪留职)

>oppscmd -f d:\check.cmd; :执行命令文件;

UDF:用户自定义标量函数。输入输出是一对一,输入第十根输出第十根。

set ProjectProtection=true

LIKE也能带入LIFECYCLE,都也能 带入分区键信息、注释等。

LIKE也能一键复制单张表的表特征,也能带入数据