曙海教学优势
本课程以项目实现为导向,面向企事业项目实际需要,秉承二十一年积累的教学品质,老师将会与您分享设计的全流程以及工具的综合使用经验、技巧。线上/线下/上门皆可,课程可定制,热线:4008699035。
曙海培训的课程培养了大批受企业欢迎的工程师。曙海培训的课程在业内有着响亮的知名度。大批企业和曙海
建立了良好的合作关系,合作企业30万+。
培训对象:需要使用Hadoop来进行数据分析的数据分析员,商业分析
教学大纲:
Hadoop基础
Pig基础
使用Pig进行简单数据分析
使用Pig处理复杂数据
使用Pig分析处理多数据集
Pig排错和优化
Hive与Impala基础
使用Hive与Impala进行数据分析
数据管理
数据存储与性能
使用Hive与Impala进行数据分析
Impala如何执行查询/扩展及改善性能
使用Hive分析处理文本数据
Hive优化
扩展Hive
如何选取数据分析工具
课程大纲:
Hadoop Fundamentals
Hadoop Overview
Data Storage: HDFS
Distributed Data Processing: YARN, MapReduce, and Spark
Data Processing and Analysis: Pig, Hive, and Impala
Data Integration: Sqoop
Other Hadoop Data Tools
Exercise Scenarios Explanation
Introduction to Pig
What Is Pig?
Pig’s Features
Pig Use Cases
Interacting with Pig
Basic Data Analysis with Pig
Pig Latin Syntax
Loading Data
Simple Data Types
Field Definitions
Data Output
Viewing the Schema
Filtering and Sorting Data
Commonly-Used Functions
Processing Complex Data with Pig
S torage Formats
Complex/Nested Data Types
G rouping
Built-In Functions for Complex Data
Iterating Grouped Data
Multi-Dataset Operations with Pig
Techniques for Combining Data Sets
Joining Data Sets in Pig
Set Operations
Splitting Data Sets
Pig Troubleshooting and Optimization
Troubleshooting Pig
Logging
Using Hadoop’s Web UI
Data Sampling and Debugging
Performance Overview