Hive小练习实现单词统计
Hive小练习实现单词统计
su -l hadoop
输入密码
vi word.txt #新建一个
word.txt
文档,作为我们的数据文件
输入一些词汇,以” “为分隔符
hello world
hello terese
hello myfriend
hello everyone
esc
:wq保存退出
hive#回到hive命令行中
create table text (line string);#创建一个text表
load data local inpath ‘/home/hadoop/word.txt’ into table text;#将数据加载到该表中
select *from text;#查看text表
如何将其中的每行的单词进行统计呢?
先将每行文本切割成单个单词,使用split函数,得到单个单词为元素的数组,使用explode函数将
数组中的每个元素生成一行,最后得到hive能直接通过group by
处理的形式。
使用split函数将每行的文本切割成单个的单词。
使用explode
这个函数的功能是行转列,将得到的数组中的每个元素生成一行。
select explode(split(line,’ ‘))as word from text;
select w.word,count(*) from (select explode(split(line,’ ‘))as word from text) as w group by w.word;
#需要使用
group by
对数据进行统计。
select w.word,count(*) c from (select explode(split(line,’ ‘))as word from text) as w group by w.word order by c desc limit 3;
#降序取前三
create table count as select w.word,count(*) c from (select explode(split(line,’ ‘))as word from text) as w group by w.word order by c desc limit 3;
#将查询结果存入另一张表中
select * from count; #查看wordcount表
参考资料:
《Hadoop实战 第2版》陆嘉恒,机械工业出版社;