Server bị treo đột ngột khi thực hiện các command df/ps.
Một Chunk server đột ngột chết và log khi command pstorage –c cluster top như sau:
27-06-15 14:44:41 MON ERR CS#1099 died unexpectedly (122): csd: could not lock repository
Kiểm tra tại log CS có thông tin như sau:
27-06-15 15:10:25.911 pcs process is inactive for 2000 msecs (0)
27-06-15 15:10:25.911 [<ffffffffa02fa9b4>] rpc_wait_bit_killable+0x24/0x40 [sunrpc]
27-06-15 15:10:25.911 [<ffffffffa02fa98d>] __rpc_wait_for_completion_task+0x2d/0x30 [sunrpc]
27-06-15 15:10:25.911 [<ffffffffa03a51c2>] nfs_initiate_commit+0x152/0x180 [nfs]
27-06-15 15:10:25.911 [<ffffffffa03a6a2c>] nfs_generic_commit_list+0x8c/0x100 [nfs]
27-06-15 15:10:25.911 [<ffffffffa03a6b8c>] nfs_commit_inode+0xec/0x150 [nfs]
...
Theo thông tin log bên trong, thì pstorage mount đang bị treo và hệ thống đang cố gắng thực hiện tại tiến trình access, điều này gây ra tình trạng treo cục bộ, các command df, ps, netstat cũng bị treo khi thực hiện. Chi tiết log có thể xem tại /var/log/pstorage/pstorage-mount.log.gz.
27-06-15 14:17:10.716 pcs process is inactive for 1000 msecs (0)
27-06-15 15:01:07.904 [<ffffffffa0396384>] nfs_wait_bit_killable+0x24/0x40 [nfs]
27-06-15 15:01:07.904 [<ffffffffa03a6b4a>] nfs_commit_inode+0xaa/0x150 [nfs]
27-06-15 15:01:07.904 [<ffffffffa039353e>] nfs_release_page+0x8e/0xb0 [nfs]
27-06-15 15:01:07.904 [<ffffffff811343d0>] try_to_release_page+0x30/0x60
27-06-15 15:01:07.904 [<ffffffff81153134>] shrink_page_list.clone.0+0x80/0xae0
Vui lòng kiểm tra lại tình trạng của điểm mount NFS trên hệ thống server.
[root@vz ~]# grep nfs /proc/mounts
172.16.1.34:/export /backups_nfs nfs rw,relatime,vers=3,rsize=262144,wsize=262144,namlen=255,hard,nolock,proto=tcp,timeo=600,
retrans=2,sec=sys,mountaddr=172.16.1.2,mountvers=3,mountport=40230,mountproto=udp,local_lock=all,addr=172.16.1.2 0 0
Theo thông tin cấu hình trên, có thể xác định NFS đã được mount với option hard của NFS, option này sẽ cố gắng thực hiện kết nối lại điểm mount khi mount point bị mất kết nối.
Giải pháp ở đây là kiểm tra và restart lại NFS server để phía Node có thể kết nối trở lại bình thường.