集群错误记录

     今早被人发邮件说集群任务有个reduce一直无法完成,查看了一下日志,发现有大量的创建块操作失败,根据以往的经验,当年曾经被桌面级磁盘坑过,这种情况无外乎是压力过大,导致pipeline长时间无法建立。然后通过ganglia检查后发现并没有太大的压力。

     检查DataNode日志发现有大量的too many open files错误,很低级的错误,装机后没有改好配置。
     ulimit -a 后印证了想法,nofile为1024。
     同时记录一下:
     18内核修改/etc/security/limits.conf文件,32内核除了修改上面的文件,还需要修改/etc/security/limits.d/90-nproc.conf文件。
     *     soft     nofile     65535
     *     hard    nofile     65535 
      
Print Friendly

jiang yu

Leave a Reply