⑴ 如何配置Hadoop環境
資源下載
1、JDK下載:下載鏈接
2、hadoop:下載鏈接
3、下載完成後驗證一下下載,將計算的MD5值與官網的進行對比已驗證安裝包的准確性:
md5sum ./hadoop-2.6.*.tar.gz | tr "a-z" "A-Z" # 計算md5值,並轉化為大寫,方便比較1
一、創建Hadoop用戶
創建hadoop用戶,並分配以用戶名為家目錄/home/hadoop,並將其加入到sudo用戶組,創建好用戶之後,以hadoop用戶登錄:
sudo useradd -m hadoop -s /bin/bash sudo adser hadoop sudo
sudo passwd hadoop # 設置hadoop用戶密碼123
二、安裝JDK、Hadoop及配置環境變數
安裝,解壓JDK到/usr/lib/java/路徑下,Hadoop到/usr/local/etc/hadoop/路徑下:
tar zxf ./hadoop-2.6.*.tar.gz
mv ./hadoop-2.6.* /usr/local/etc/hadoop # 將 /usr/local/etc/hadoop作為Hadoop的安裝路徑12
解壓完成之後,可驗證hadoop的可用性:
cd /usr/local/etc/hadoop
./bin/hadoop version # 查看hadoop的版本信息12
若在此處,會出現類似以下的錯誤信息,則很有可能是該安裝包有問題。
Error: Could not find or load main class org.apache.hadoop.util.VersionInfo1
配置環境,編輯「/etc/profile」文件,在其後添加如下信息:
export HADOOP_HOME=/usr/local/etc/hadoopexport JAVA_HOME=/usr/lib/java/jdk1.8.0_45export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=$PATH:${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin12345
使配置的變數生效:
source /etc/profile1
三、測試一下
在此我們可以運行一個簡單的官方Demo:
cd `echo $HADOOP_HOME` # 到hadoop安裝路徑
mkdir ./input
cp ./etc/hadoop/*.xml ./input
hadoop jar ./share/hadoop/maprece/hadoop-maprece-examples-*.jar grep ./input ./output 'dfs[a-z.]+'1234
輸出的結果應該會是:
1 dfsadmin 1
這里有一點需要注意,該Example程序運行時不能已存在output目錄,否則或將無法執行!
四、Hadoop的偽分布式環境搭建
什麼是偽分布式?Hadoop 偽分布式模式是在一台機器上模擬Hadoop分布式,單機上的分布式並不是真正的分布式,而是使用線程模擬的分布式。分布式和偽分布式這兩種配置也很相似,唯一不同的地方是偽分布式是在一台機器上配置,也就是名位元組點(namenode)和數據節點(datanode)均是同一台機器。
需要配置的文件有core-site.xml和hdfs-site.xml這兩個文件他們都位於${HADOOP_HOME}/etc/hadoop/文件夾下。
其中core-site.xml:
文件hdfs-site.xml的配置如下:
配置完成後,執行格式化命令,使HDFS將制定的目錄進行格式化:
若格式化成功,在臨近輸出的結尾部分可看到如下信息:
如果發現並沒有出現如上信息,則使用刷新節點命令進行刷新:
八、HDFS集群實例測試
依然是之前的那個示例,首先,創建一個數據源文件夾,並添加數據:
運行maprece示例:
holding…
⑵ 問句門外漢的話,一台電腦能配置hadoop集群環境嗎
可以,在電腦上安裝虛擬機,虛擬出3個節點,就可以搭建一個完全分布式的Hadoop集群了。 虛擬機建議選VirtualBox,安裝完比較小(相比於VMWare )。 關於虛擬機的安裝請網路教程。 其中一個虛擬機Ubuntu或其他linux安裝完成後,可以通過復制功能安裝其他兩個,其中包括JDK的安裝配置,Hadoop的安裝(其實就是解壓,環境變數配置即profile的修改,etc配置文件的修改,包括core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml)。 復制完後再分配虛擬機的IP,SSH無密碼驗證配置等。 上述細節請網路教程,太多了。
⑶ 學習hadoop實驗 電腦要什麼配置
如果只是安裝開源的hadoop的話,cpu8核,內存8g,磁碟16g應該就可以了
⑷ hadoop集群搭建在阿里雲伺服器上 雲伺服器配置要求是多少
如果是集群的話,我考慮需要流暢運行的話,2核4G配置是可以滿足的。因為這個集群形式,用於適用於物聯網、車聯網、監控、安全風控、即時通訊、消息存儲等行業場景,所以數據量是比較大的,所以配置太低了跑不動,會卡死的。
因為hadoop是海量數據的處理能力,所以伺服器一定不能太小配置了,跑不動了就沒實際用途了。最好使用4核8G內存及以上配置。
因為這方面內容較多,這里也寫不開那麼多內容,所以你可以留言或到我的博客上搜索相關內容,老魏有寫過教程,還不止一篇,都挺詳細的內容,可以幫助你入門。
⑸ 自己的電腦安裝Hadoop、Spark的配置要求是
spark的話內存越大越好,hadoop配置稍高點就可以了
⑹ hadoop要求電腦內存
1、使用apache原生的hadoop來搭建集群,除了配置繁瑣之外,還可能會有很多版本兼容性的問題(這很是頭疼的問題),當然在一些組件的官網有明確的版本依賴性說明,搭建haddop+hive或者hadoop+hbase等,管理起來也非常的不便,得自己寫腳本來實現監控。當然了,也有它的好處,就是達到能運行起來,佔用的內存並不多,8G的筆記本也能運行hadoop+hive或者hadoop+hbase,現在主流的pc機器應該都支持,也適合入門,對了解各個配置文件的作用及一些參數的調整有好處。
2、使用hortonworks的ambari來搭建 hadoop集群,這個佔用的內存不算太多,也支持添加常用的組件同時運行,如zookeeper,hadoop,hive,hbase,flume等,ambari也是開源的,能滿足大部分的初學者及一些為節約成本的企業需求。但ambari對一些組件的支持還是不夠,如impala,ku,hue等,這些組件最早都是由cloudera公司開發的,雖然目前ambari也支持,但可能對他們的兼容性還不夠完善,可能會遇到一些問題。對於16G的筆記本來說,用ambari來搭建學習環境是完全沒問題的。
3、對於CDH愛好者來說,16G筆記本其實也是可以搭建並運行起來的,當然了,這個真只能單節點了。只是在安裝集群時候,最開始先只添加必要的服務,如zookpper,hdfs。其它服務可以安裝完成之後再添加的。安裝完成後,把下面的Cloudera Management Service給停掉,這可以節約幾個G的內存(至少2-3G),停用後,不影響集群的正常工作,這只是用於資源監控的,我停用後,添加的組件和CM界面效果如下:
目前上述服務全部都是啟動狀態,可以正常使用。本人筆記本16G內存,下面是我虛擬機的內存情況:
當然本人物理機打開的應用除了虛擬機之外,還可以開一個xshell和idea開發工具,再多開一些應用就會卡了,當然也可以停掉一些用不到的服務來減小內存消耗。
⑺ 哪位大神知道從安裝hadoop2.7.1到配置文件的所有正確流程
需要技能:Linux shell 基本操作
Hadoop hdfs 基本操作
(網上文檔很多)
需要文件:VMvare
Hadoop2.1以上包
(官網都可以下)
FTP工具
JDK
Linux
開始配置:
1:.准備Linux環境
1.0點擊VMware快捷方式,右鍵打開文件所在位置 -> 雙擊vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 設置網段:192.168.1.0 子網掩碼:255.255.255.0 -> apply -> ok
回到windows --> 打開網路和共享中心 -> 更改適配器設置 -> 右鍵VMnet1 -> 屬性 -> 雙擊IPv4 -> 設置windows的IP:192.168.1.100 子網掩碼:255.255.255.0 -> 點擊確定
在虛擬軟體上 --My Computer -> 選中虛擬機 -> 右鍵 -> settings -> 192network adapter -> host only -> ok
1.1修改主機名
vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=itcast
1.2修改IP
通過Linux圖形界面進行修改
進入Linux圖形界面 -> 右鍵點擊右上方的兩個小電腦 -> 點擊Edit connections -> 選中當前網路System eth0 -> 點擊edit按鈕 -> 選擇IPv4 -> method選擇為manual -> 點擊add按鈕 -> 添加IP:192.168.1.101 子網掩碼:255.255.255.0 網關:192.168.1.1 -> apply
1.3修改主機名和IP的映射關系
vim /etc/hosts
192.168.1.101 itcast
1.4關閉防火牆
#查看防火牆狀態
service iptables status
#關閉防火牆
service iptables stop
#查看防火牆開機啟et動狀態
chkconfig iptables --list
#關閉防火牆開機啟動
chkconfig iptables off
1.5重啟Linux
reboot
#####################################################################
2.安裝JDK
2.1上傳alt+p 後出現sftp窗口,然後put d:\xxx\yy\ll\jdk-7u_65-i585.tar.gz
//在主機crt中,聯192.168.1.101
2.2解壓jdk
#創建文件夾
mkdir /home/hadoop/app
#解壓
tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app
#解壓的時候注意是路徑 要在[root@itcast~]下
2.3將java添加到環境變數中
#在文件最後添加 #注意添加的jdk路徑
export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585
export PATH=$PATH:$JAVA_HOME/bin
#刷新配置
source /etc/profile
#[root@itcast app] ls 看一下是否成功
####################################################################
3.安裝hadoop2.4.1
#同上jdk 上傳 解壓#
先上傳hadoop的安裝包到伺服器上去/home/hadoop/
注意:hadoop2.x的配置文件$HADOOP_HOME/etc/hadoop
偽分布式需要修改5個配置文件
3.1配置hadoop
# 進入 hadoop2.4.1 的etc中的 hadoop
第一個:hadoop-env.sh
vim hadoop-env.sh:
#第27行
export JAVA_HOME=/usr/java/jdk1.7.0_65
第二個:core-site.xml
<!-- 指定HADOOP所使用的文件系統schema(URI),HDFS的老大(NameNode)的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://weekend-1206-01:9000</value>
</property>
<!-- 指定hadoop運行時產生文件的存儲目錄 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/hadoop-2.4.1/tmp</value>
</property>
第三個:hdfs-site.xml hdfs-default.xml (3)
<!-- 指定HDFS副本的數量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
第四個:mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<!-- 指定mr運行在yarn上 -->
<property>
<name>maprece.framework.name</name>
<value>yarn</value>
</property>
第五個:yarn-site.xml
<!-- 指定YARN的老大(ResourceManager)的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>weekend-1206-01</value>
</property>
<!-- recer獲取數據的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>maprece_shuffle</value>
</property>
3.2將hadoop添加到環境變數
hadoop2.4.1下的bin下設置
vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.7.0_65
export HADOOP_HOME=/itcast/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:
#export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/sbin::$HADOOP_HOME/bin
############################若無效可改用按以下式#################################
#vi /etc/profile或者vi ~/.bash_profile
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
然後用source重新編譯使之生效即可!
#source /etc/profile或者source ~/.bash_profile 贊
################################################################################
$HADOOP_HOME/sbin
source /etc/profile
3.3格式化namenode(是對namenode進行初始化)
###########每次重啟集群必須先格式化#########
hdfs namenode -format (hadoop namenode -format)
3.4啟動hadoop
先啟動HDFS
sbin/start-dfs.sh
再啟動YARN
sbin/start-yarn.sh
3.5驗證是否啟動成功
使用jps命令驗證
27408 NameNode
28218 Jps
27643 SecondaryNameNode
28066 NodeManager
27803 ResourceManager
27512 DataNode
#缺一不可#
http://192.168.1.101:50070 (HDFS管理界面)
http://192.168.1.101:8088 (MR管理界面)
##########################OK!~ 配置成功了######################################
作者:孫思
鏈接:http://www.hu.com/question/35246777/answer/92115364
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。
⑻ 一台筆記本怎麼學習Hadoop
如果你的筆記本電腦配置強悍,8核CPU+8G內存,可以安裝個VMWare Esxi 5 虛擬化平台(免費),就可以像一台伺服器那樣操作。
給虛擬機分配資源,管理網卡,你同時還可以安裝Cloudera的VMWare虛擬機鏡像,他們已經把Hadoop安裝好了,你需要拿過來用就OK了。
⑼ Hadoop的搭建一般至少要多少台機器
這個要看你的需求
比如你要處理的數據量,和你的伺服器的配置
如果你只是學習,可以用2-3台伺服器
如果沒有條件,用一台電腦,裝幾個虛擬機也可以