FastNetMon

Thursday 24 October 2013

Практический опыт с HDFS

Вот поставил на две ноды, радуюсь. И сломал через 25 минут после установки - появились corrupted nodes ( Corrupt blocks: 1),  забил, удалил файл и залил заново - все заработало.

Попробовал отключить один из серверов (на оставшемся были все реплики) и получил следующее:
sudo -u hdfs hadoop fs -get /mydir/1Gb.dat /tmp/asdasd
#
# A fatal error has been detected by the Java Runtime Environment:
#
#  SIGSEGV (0xb) at pc=0x00007fca186b3792, pid=13965, tid=140505678411520
#
# JRE version: Java(TM) SE Runtime Environment (7.0_45-b18) (build 1.7.0_45-b18)
# Java VM: Java HotSpot(TM) 64-Bit Server VM (24.45-b08 mixed mode linux-amd64 compressed oops)
# Problematic frame:
# V  [libjvm.so+0x55b792]  PhaseCFG::schedule_node_into_block(Node*, Block*)+0xc2
#
# Failed to write core dump. Core dumps have been disabled. To enable core dumping, try "ulimit -c unlimited" before starting Java again
#
# An error report file with more information is saved as:
# /tmp/hs_err_pid13965.log
#
# If you would like to submit a bug report, please visit:
#   http://bugreport.sun.com/bugreport/crash.jsp
#
[root@hadoop tmp]# cat /tmp/hs_err_pid13965.log
#
# A fatal error has been detected by the Java Runtime Environment:
#
#  SIGSEGV (0xb) at pc=0x00007fca186b3792, pid=13965, tid=140505678411520
#
# JRE version: Java(TM) SE Runtime Environment (7.0_45-b18) (build 1.7.0_45-b18)
# Java VM: Java HotSpot(TM) 64-Bit Server VM (24.45-b08 mixed mode linux-amd64 compressed oops)
# Problematic frame:
# V  [libjvm.so+0x55b792]  PhaseCFG::schedule_node_into_block(Node*, Block*)+0xc2
#
# Failed to write core dump. Core dumps have been disabled. To enable core dumping, try "ulimit -c unlimited" before starting Java again
#
# If you would like to submit a bug report, please visit:
#   http://bugreport.sun.com/bugreport/crash.jsp
#
Ну и после 3х минут чесания репы и понимания - сломать _самому_ кластерную супернадежную ФС - это уж слишком, тянусь к мемтестеру :)

Который через 4 секунды теста показывает серьезные повреждения:
memtester 12000
memtester version 4.2.1 (64-bit)
Copyright (C) 2010 Charles Cazabon.
Licensed under the GNU General Public License version 2 (only).
pagesize is 4096
pagesizemask is 0xfffffffffffff000
want 12000MB (12582912000 bytes)
got  12000MB (12582912000 bytes), trying mlock ...locked.
Loop 1:
  Stuck Address       : testing   0FAILURE: possible bad address line at offset 0xd8ccd000.
Skipping to next test...
  Random Value       

P.S. НЕ ВЕРЬТЕ, что hadoop будет работать на _любом железе_. ECC/chipkill - must have.

No comments :

Post a Comment

Note: only a member of this blog may post a comment.