Số lượng MDS dưới số lượng yêu cầu của quorum.
Tình trạng cluster không thể điều khiển được và xuất hiện lỗi thông báo khi dùng pstorage –c top
~# pstorage -c $CLUSTER_NAME top
12-03-15 02:40:19.647 Unable connect to cluster, timeout (30 sec) expired.
Một vài node MDS trong cluster đã bị chết hoàn toàn ( vd: lỗi phần cứng ).
Nguyên nhân
Nguyên lý của Parallels Cloud Storage, phải có một MDS server được hoạt động thì cluster mới hoạt động, MDS này phải thuộc trong một quorum. Khi quorum bị mất, thì tất cả các chứ năng của cluster đề bị block.
Giải pháp.
Để phục hồi quorum trong trường hợp này bắc buộc phải xóa các MDS bị chết từ cluster.
Ví dụ mô hình cluster trong trường hợp này như sau:
MDS-es “#1” “#2” “#3” “#4” and “#5”.
MDSs “#3” “#4” and “#5” đã bị chết hoàn toàn.
Tiếp theo sẽ tiến hành phục hồi quorum trên các MDS server còn hoạt động.
Trong trường hợp này, sẽ bắt buộc phải stop các MDS đang hoạt động và xóa các MDS bị chết trên cluster.
# service pstorage-mdsd stop
Lưu ý: Các MDS nodes bị chết PHẢI được xóa trên TẤT CẢ các MDSes bình thường trong cluster trước khi restart lại các MDS service .!
Tiến hành remove các MDS server bị chết từ MDS repository local ( các command này được thực hiện trên các Host bình thường ) .
# pstorage -c $CLUSTER_NAME configure-mds -r /$PATH_TO/$LOCAL_MDS/ -d $MDS_ID_3
# pstorage -c $CLUSTER_NAME configure-mds -r /$PATH_TO/$LOCAL_MDS/ -d $MDS_ID_4
# pstorage -c $CLUSTER_NAME configure-mds -r /$PATH_TO/$LOCAL_MDS/ -d $MDS_ID_5
Các MDS ID chết có thể xem tại MDS log (/var/log/pstorage/$CLUSTER_NAME/mds-XXXXXXX/ ) trên các Host còn sống.
12-03-15 09:27:21.738 neigh: connect to #3 [0x37acc51][192.168.12.3:2510] failed 113(No route to host)
12-03-15 09:27:21.750 neigh: connect to #4 [0x16dbc30][192.168.12.4:2510] failed 113(No route to host)
12-03-15 09:27:21.753 neigh: connect to #5 [0x98dgh54][192.168.12.5:2510] failed 113(No route to host)
12-03-15 09:27:21.755 wd_cs_status_timer: not master
Start lại các MDS service.
# service pstorage-mdsd start