大數(shù)據(jù)經(jīng)典面試題答疑---經(jīng)常問(wèn)的原理問(wèn)題總結(jié)(系列文章,持續(xù)更新),幫你解決大數(shù)據(jù)開(kāi)發(fā)中的困擾。
1. hive+MapReduce
答案區(qū):
1. hive+MapReduce
Hive不支持行級(jí)數(shù)據(jù)的插入、更新和刪除,也不支持事務(wù)操作;
1.1. MapReduce的join過(guò)程
(1):利用DistributedCache將小表分發(fā)到各個(gè)節(jié)點(diǎn)上,在Map過(guò)程的setup()函數(shù)里,讀取緩存里的文件,只將小表的連接鍵存儲(chǔ)在hashSet中。
(2):在map()函數(shù)執(zhí)行時(shí),對(duì)每一條數(shù)據(jù)進(jìn)行判斷(包含小表數(shù)據(jù)),如果這條數(shù)據(jù)的連接鍵為空或者在hashSet里不存在,那么則認(rèn)為這條數(shù)據(jù)無(wú)效,這條數(shù)據(jù)也不參與reduce的過(guò)程。
1.2. hive的SQL解析過(guò)程
詞法、語(yǔ)法解析: Antlr 定義 SQL 的語(yǔ)法規(guī)則,完成 SQL 詞法,語(yǔ)法解析,將 SQL 轉(zhuǎn)化為抽象語(yǔ)法樹(shù) AST Tree;
語(yǔ)義解析: 遍歷 AST Tree(抽象語(yǔ)法樹(shù),抽象語(yǔ)法結(jié)構(gòu)的樹(shù)狀),抽象出查詢的基本組成單元 QueryBlock;
生成邏輯執(zhí)行計(jì)劃: 遍歷 QueryBlock,翻譯為執(zhí)行操作樹(shù) OperatorTree;
優(yōu)化邏輯執(zhí)行計(jì)劃: 邏輯層優(yōu)化器進(jìn)行 OperatorTree 變換,合并 Operator,達(dá)到減少 MapReduce Job,減少數(shù)據(jù)傳輸及 shuffle 數(shù)據(jù)量;
生成物理執(zhí)行計(jì)劃: 遍歷 OperatorTree,翻譯為 MapReduce 任務(wù);
優(yōu)化物理執(zhí)行計(jì)劃: 物理層優(yōu)化器進(jìn)行 MapReduce 任務(wù)的變換,生成最終的執(zhí)行計(jì)劃。
1.3. hive數(shù)據(jù)導(dǎo)入
load data inpath '/hadoop/guozy/data/user.txt' into table external_table;
此處是移動(dòng)(非復(fù)制),移動(dòng)數(shù)據(jù)非???,不會(huì)對(duì)數(shù)據(jù)是否符合定義的Schema做校驗(yàn),這個(gè)工作通常在讀取的時(shí)候進(jìn)行(即Schema on Read)
1.4. 內(nèi)部表與外部表的不同
1.創(chuàng)建外部表需要添加 external 字段。而內(nèi)部表不需要。
2.刪除外部表時(shí),HDFS中的數(shù)據(jù)文件不會(huì)一起被刪除。而刪除內(nèi)部表時(shí),表數(shù)據(jù)及HDFS中的數(shù)據(jù)文件都會(huì)被刪除。
3.內(nèi)部表與外部表如果不指定location,默認(rèn)使用hive.metastore.warehouse.dir指定的路徑
1.5. 分區(qū)和分桶
1.5.1. 分區(qū)
指的就是將數(shù)據(jù)按照表中的某一個(gè)字段進(jìn)行統(tǒng)一歸類,并存儲(chǔ)在表中的不同的位置,也就是說(shuō),一個(gè)分區(qū)就是一類,這一類的數(shù)據(jù)對(duì)應(yīng)到hdfs存儲(chǔ)上就是對(duì)應(yīng)一個(gè)目錄。
1.5.1.1. 靜態(tài)分區(qū)
數(shù)據(jù)已經(jīng)按某些字段分完區(qū)放在一塊,建表時(shí)直接指定分區(qū)即可。
create table enter_country_people(id int,name string,cardNum string)
partitioned by (enter_date string,country string);
注意,這里的分區(qū)字段不能包含在表定義字段中,因?yàn)樵谙虮碇衛(wèi)oad數(shù)據(jù)的時(shí)候,需要手動(dòng)指定該字段的值.
數(shù)據(jù)加載(指定分區(qū)):
load data inpath '/hadoop/guozy/data/enter__china_people' into table enter_country_people partition (enter_date='2019-01-02',country='china');
此處自動(dòng)創(chuàng)建分區(qū)目錄;
創(chuàng)建完后目錄結(jié)構(gòu):
其他創(chuàng)建分區(qū)目錄的方法:
1.alter table enter_country_people add if not exists partition (enter_date='2019-01-03',country='US');
2.在相應(yīng)的表目錄下創(chuàng)建分區(qū)目錄后,執(zhí)行 msck repair table table_name;
1.5.1.2. 動(dòng)態(tài)分區(qū)
建表相同,主要是加載數(shù)據(jù)方式不同,動(dòng)態(tài)分區(qū)是將大雜燴數(shù)據(jù)自動(dòng)加載到不同分區(qū)目錄。
1.開(kāi)啟非嚴(yán)格模式
2.需要從另一張hive表查詢
set hive.exec.dynamic.partition.mode=nonstrict;
insert into table enter_country_people(user string,age int) partition(enter_date,country) select user,age,enter_date,country from enter_country_people_bak;
1.5.2. 分桶表
如果兩個(gè)表根據(jù)相同的字段進(jìn)行分桶,則在對(duì)這兩個(gè)表進(jìn)行關(guān)聯(lián)的時(shí)候可以使用map-side關(guān)聯(lián)高效實(shí)現(xiàn)。
create table user_bucket(id int comment 'ID',name string comment '姓名',age int comment '年齡') comment '測(cè)試分桶' clustered by (id) sorted by (id) into 4 buckets row format delimited fields terminated by '\t';
指定根據(jù)id字段進(jìn)行分桶,并且分為4個(gè)桶,并且每個(gè)桶內(nèi)按照id字段升序排序,如果不加sorted by,則桶內(nèi)不經(jīng)過(guò)排序的,上述語(yǔ)句中為id,根據(jù)id進(jìn)行hash之后在對(duì)分桶數(shù)量4進(jìn)行取余來(lái)決定該數(shù)據(jù)存放在哪個(gè)桶中,因此每個(gè)桶都是整體數(shù)據(jù)的隨機(jī)抽樣。
數(shù)據(jù)載入:
我們需要借助一個(gè)中間表,先將數(shù)據(jù)load到中間表中,然后通過(guò)insert的方式來(lái)向分桶表中載入數(shù)據(jù)。
create table tmp_table (id int comment 'ID',name string comment '名字',age int comment '年齡') comment '測(cè)試分桶中間表' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;
load data inpath '/hadoop/guoxb/data/user.txt' into table tmp_table;
insert into user_bucket select * from tmp_table;
上述的語(yǔ)句中,最終會(huì)在hdfs上生成四個(gè)文件,而不是四個(gè)目錄,如果當(dāng)在次向該分桶表中insert數(shù)據(jù)后,會(huì)又增加4個(gè)文件,而不是在原來(lái)的文件上進(jìn)行追加。
1.5.3. 區(qū)別
1.hdfs目錄結(jié)構(gòu)不同,分區(qū)是生成目錄,分桶是生成文件
2.分區(qū)表在加載數(shù)據(jù)的時(shí)候可以指定加載某一部分?jǐn)?shù)據(jù),有利于查詢
3.分桶在map-side join(另一種 reduce-side join)查詢時(shí),可以直接從bucket(兩表分桶成倍數(shù)即可)中提取數(shù)據(jù)進(jìn)行關(guān)聯(lián)操作,查詢高效。
1.6. Sort By、Order By、Cluster By,Distribute By,group by
order by:會(huì)對(duì)輸入做全局排序,因此***\*只有一個(gè)reducer\****(多個(gè)reducer無(wú)法保證全局有序)。只有一個(gè)reducer,會(huì)導(dǎo)致當(dāng)輸入規(guī)模較大時(shí),需要較長(zhǎng)的計(jì)算時(shí)間。
distribute by:按照指定的字段對(duì)數(shù)據(jù)進(jìn)行劃分輸出到不同的reduce中(單純的分散數(shù)據(jù))。
sort by:局部排序,sort by只是確保每個(gè)reduce上面輸出的數(shù)據(jù)有序,當(dāng)只有一個(gè)reduce時(shí),也變成全局排序。
cluster by:當(dāng)distribute by 和 sort by 所指定的字段相同時(shí),即可以使用cluster by
group By Key算子的功能固定,只能輸出相同key值的序列,reduceByKey適用于分組排序過(guò)程中有數(shù)據(jù)聚合操作(sum)的情形,在其他場(chǎng)景下可能不適用。
受限于reduce數(shù)量,設(shè)置reduce參數(shù)mapred.reduce.tasks 輸出文件個(gè)數(shù)與reduce數(shù)相同,文件大小與reduce處理的數(shù)據(jù)量有關(guān),網(wǎng)絡(luò)負(fù)載過(guò)重 數(shù)據(jù)傾斜,優(yōu)化參數(shù)hive.groupby.skewindata為true,會(huì)啟動(dòng)一個(gè)優(yōu)化程序,避免數(shù)據(jù)傾斜
1.7. SQL
1.7.1. 開(kāi)窗函數(shù)
1.8. 數(shù)據(jù)傾斜怎么解決
1.key 盡量打亂;提高reduce任務(wù)數(shù)
2.關(guān)聯(lián)查詢時(shí),利用分桶和map-side提高查詢效率
1.9. 星型模型和雪花模型介紹
星型模型:所有的維表直接連接到事實(shí)表:
雪花模型:
當(dāng)有一個(gè)或多個(gè)維表沒(méi)有直接連接到事實(shí)表上,而是通過(guò)其他維表連接到事實(shí)表上時(shí),是星型模型的拓展。
更多關(guān)于大數(shù)據(jù)培訓(xùn)的問(wèn)題,歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年IT培訓(xùn)服務(wù)經(jīng)驗(yàn),采用全程面授高品質(zhì)、高體驗(yàn)培養(yǎng)模式,擁有國(guó)內(nèi)一體化教學(xué)管理及學(xué)員服務(wù),助力更多學(xué)員實(shí)現(xiàn)高薪夢(mèng)想。