Archive for the 'opensolaris' Category

NAS起動せず?

Posted by ゆのじ on 8月 31st, 2009

先日、ふと気づいたらNASからの応答がなくなっていた。コンソールから見ても完全に死んでいるようなので仕方なく強制的に電源OFFして電源を入れ直したのだがいくら待ってもあがってこない。見てみると起動途中でpanicして再起動、というループにはまっている様子。何が起きたかわからないがとりあえず面倒だなぁと思いつつトラブルシュートした。

現象:
起動中にpanic。どうもc6t0d0(これこの間交換した玉だな、、)のアクセスランプがつきっぱなしになってpanicしている様子。とりあえず該当の玉を引っこ抜いてからmessagesを見てみると、

Aug 10 02:29:07 melongena genunix: [ID 103648 kern.notice] recursive mutex_enter, lp=ffffff014b1cd768 owner=ffffff0003eb9c60 thread=ffffff0003eb9c60

でpanic、エラーログを吐いてリブートしている。

エラーログから色々調べてみると、どうもこれ(Bug ID: 6786704)くさい。Acceptされてはいるが、まだ修正されていない既知のバグ。それによれば、

Crash occurs generally when a bad block is found on a disk; driver appears to be unable to deal with the resulting bus reset.

とある。

ならば調査と、Windowsマシンに繋いでCrystalDiskInfoでS.M.A.R.T.の値を見てみると、代替処理済みのセクタ数が0×9、代替処理保留中のセクタ数が0×21、回復不可能セクタ数が0xfとなっていて「注意」状態。というか回復不可能セクタが出ている時点でもう駄目ぽ。理由はわからないが元々駄目なやつを引いたのだろう。

近く新しい玉を買ってきて入れ替えるつもりではいるが、si3124を使っている場合、突然落ちて再起動すら正常にいかないケースがある、ということを覚えておく必要がありそうだ。

NASの玉交換

Posted by ゆのじ on 8月 2nd, 2009

再構築中......

一時期さんざん記事を書いたNASだが、ついに1発トラブルが起きた。アクセスランプがつきっぱなしになっていたので見てみると、

  pool: tank
 state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
        repaired.
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        tank        DEGRADED     0     0     0
          raidz2    DEGRADED     0     0     0
            c5t0d0  ONLINE       0     0     0
            c6t0d0  FAULTED      8   205     0  too many errors
            c5t1d0  ONLINE       0     0     0
            c6t1d0  ONLINE       0     0     0
            c5t2d0  ONLINE       0     0     0
            c6t2d0  ONLINE       0     0     0
            c5t3d0  ONLINE       0     0     0
            c6t3d0  ONLINE       0     0     0
        spares
          c3d1      AVAIL

とのこと。何が原因かわからないが、とりあえず書き込みエラーが頻発している玉(HDD/c6t6d0)があるようだ。とりあえずこちらを参考にしつつ、下記のように作業。ホットスワップ非対応であればいったんシャットダウンしてからHDDを取り替え、4の手順からやれば良いはず。

1)玉を外す準備

cfgadmコマンド(引数なし)でデバイス一覧が出るので、その中から問題の起きている玉を見つけて、unconfigureする。unconfigureしたらcfgadmで一覧を確認して、unconfigure状態になっていることを確認。

root@melongena:~# cfgadm
Ap_Id                          Type         Receptacle   Occupant     Condition
sata4/0::dsk/c5t0d0            disk         connected    configured   ok
sata4/1::dsk/c5t1d0            disk         connected    configured   ok
sata4/2::dsk/c5t2d0            disk         connected    configured   ok
sata4/3::dsk/c5t3d0            disk         connected    configured   ok
sata5/0::dsk/c6t0d0            disk         connected    configured   ok
sata5/1::dsk/c6t1d0            disk         connected    configured   ok
sata5/2::dsk/c6t2d0            disk         connected    configured   ok
sata5/3::dsk/c6t3d0            disk         connected    configured   ok
~略~
root@melongena:~# cfgadm -c unconfigure sata5/0::dsk/c6t0d0
Unconfigure the device at: /devices/pci@0,0/pci8086,244e@1e/pci1095,3124@1:0
This operation will suspend activity on the SATA device
Continue (yes/no)? yes
root@melongena:~# cfgadm
Ap_Id                          Type         Receptacle   Occupant     Condition
sata4/0::dsk/c5t0d0            disk         connected    configured   ok
sata4/1::dsk/c5t1d0            disk         connected    configured   ok
sata4/2::dsk/c5t2d0            disk         connected    configured   ok
sata4/3::dsk/c5t3d0            disk         connected    configured   ok
sata5/0                        disk         connected    unconfigured ok
sata5/1::dsk/c6t1d0            disk         connected    configured   ok
sata5/2::dsk/c6t2d0            disk         connected    configured   ok
sata5/3::dsk/c6t3d0            disk         connected    configured   ok
~略~

2)玉を外す

おもむろに玉を外して予備の玉に付け替えて元の位置に挿入。cfgadmではemptyになる。

root@melongena:~# cfgadm
Ap_Id                          Type         Receptacle   Occupant     Condition
sata4/0::dsk/c5t0d0            disk         connected    configured   ok
sata4/1::dsk/c5t1d0            disk         connected    configured   ok
sata4/2::dsk/c5t2d0            disk         connected    configured   ok
sata4/3::dsk/c5t3d0            disk         connected    configured   ok
sata5/0                        sata-port    empty        unconfigured ok
sata5/1::dsk/c6t1d0            disk         connected    configured   ok
sata5/2::dsk/c6t2d0            disk         connected    configured   ok
sata5/3::dsk/c6t3d0            disk         connected    configured   ok
~略~

3)再度玉を認識させる

cfgadmで該当のポートにHDDが認識され、unconfigure状態になっていることを確認したら、1の手順と同じく、今度はconfigureする。

root@melongena:~# cfgadm
Ap_Id                          Type         Receptacle   Occupant     Condition
sata4/0::dsk/c5t0d0            disk         connected    configured   ok
sata4/1::dsk/c5t1d0            disk         connected    configured   ok
sata4/2::dsk/c5t2d0            disk         connected    configured   ok
sata4/3::dsk/c5t3d0            disk         connected    configured   ok
sata5/0                        disk         connected    unconfigured unknown
sata5/1::dsk/c6t1d0            disk         connected    configured   ok
sata5/2::dsk/c6t2d0            disk         connected    configured   ok
sata5/3::dsk/c6t3d0            disk         connected    configured   ok
~略~
root@melongena:~# cfgadm -c configure sata5/0::dsk/c6t0d0
root@melongena:~# cfgadm
Ap_Id                          Type         Receptacle   Occupant     Condition
sata4/0::dsk/c5t0d0            disk         connected    configured   ok
sata4/1::dsk/c5t1d0            disk         connected    configured   ok
sata4/2::dsk/c5t2d0            disk         connected    configured   ok
sata4/3::dsk/c5t3d0            disk         connected    configured   ok
sata5/0::dsk/c6t0d0            disk         connected    configured   ok
sata5/1::dsk/c6t1d0            disk         connected    configured   ok
sata5/2::dsk/c6t2d0            disk         connected    configured   ok
sata5/3::dsk/c6t3d0            disk         connected    configured   ok
~略~

4)zfsに玉が交換されたことを通知する

これで、後は勝手にresilver(再構築)が行われる。うちの場合は1.5%ほど進んだ状態で残り5h28mと出た。うちはPCIバスに4ポートSATAカードを2枚挿して、PCIバスが律速になってしまっているので特にひどく遅いが、そうでなくてもそこそこ時間がかかる。

暇にあかして時々statusを見ていたら、ぱらぱらとチェックサムエラーがほかのドライブで出たりしていることに気がついた。ケーブルの品質がやたら悪い(1本100円のケーブルが混じっている)のが原因なのだろうと思うが、本当に駄目なケーブルは以前さんざんひどい目にあって抜いてあるのでキニシナイことにする(真似してはいけませんw)。パリティが二重にあることも、この辺を深く気にしなくてすむ理由。

root@melongena:~# zpool replace tank c6t0d0
root@melongena:~# zpool status
~略~
  pool: tank
 state: DEGRADED
 scrub: scrub in progress for 0h0m, 0.00% done, 378h41m to go
config:

        NAME              STATE     READ WRITE CKSUM
        tank              DEGRADED     0     0     0
          raidz2          DEGRADED     0     0     0
            c5t0d0        ONLINE       0     0     0
            replacing     DEGRADED     0     0 5.40K
              c6t0d0s0/o  FAULTED      8   205     0  too many errors
              c6t0d0      ONLINE       0     0     0
            c5t1d0        ONLINE       0     0     0
            c6t1d0        ONLINE       0     0     0
            c5t2d0        ONLINE       0     0     0
            c6t2d0        ONLINE       0     0     0
            c5t3d0        ONLINE       0     0     0
            c6t3d0        ONLINE       0     0     0
        spares
          c3d1            AVAIL

errors: No known data errors

外した玉は別の機械で一日ほどエラーチェックし続けて、問題があるようだったら購入した店へ持ち込もうと思う。

追記:

翌日見てみたら作業が終わっていた。どーもチェックサムエラーがぽちぽち出ている。次のメンテナンス時にはケーブルを変えた方がいいかもしれない。。

root@melongena:~# zpool status
~略~
  pool: tank
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://www.sun.com/msg/ZFS-8000-9P
 scrub: resilver completed after 5h20m with 0 errors on Sun Aug  2 19:52:20 2009
config:

        NAME        STATE     READ WRITE CKSUM
        tank        ONLINE       0     0     0
          raidz2    ONLINE       0     0     0
            c5t0d0  ONLINE       0     0     5  108K resilvered
            c6t0d0  ONLINE       0     0     0  178G resilvered
            c5t1d0  ONLINE       0     0     0
            c6t1d0  ONLINE       0     0     0
            c5t2d0  ONLINE       0     0     0
            c6t2d0  ONLINE       0     0     0
            c5t3d0  ONLINE       0     0     5  108K resilvered
            c6t3d0  ONLINE       0     0     3  64.5K resilvered
        spares
          c3d1      AVAIL

errors: No known data errors

新NAS落ち着いた

Posted by ゆのじ on 5月 21st, 2009

new NAS

先日から延々5ポスト(コレ含めて6ポスト)もかけたNASだが、ついに落ち着いた。先日からまた延々zpool scrubを掛けて掛けてエラーが出たらケーブルを取り替えての繰り返し、結局3本の不良ケーブルが混じっていたようであった。

結局さんざん苦労した代償として、下記のことに注意しておかねばならない、という教訓を得た。

  • NASとするコンピュータのメモリはmemtest86などのツールできっちりテストしておく。出来れば(というかほぼMUST)ECC付きメモリにすること。
  • SATAケーブルは良質な物を選ぶこと。1本100円のような安売りのものを買わないこと。(大変時間を無駄にした・・・)
  • 構築後、きっちり負荷を掛けたり引っこ抜いたりしてテストすること。データを失ってからでは遅い。(サーバなら最低数日のエージングは当然だが)

特に1点目のメモリ問題は怖い。私の場合、memtest86で1周できないメモリが刺さっていたがために、zfsのraidz2領域すべてが完全に修復不能なレベルでつぶれてしまった。特に酷いメモリをつかんでしまったのだろうとは思うが、同じことをクリティカルな要件で起こしてしまってはしゃれにならない。家庭用であったとしても、データを失ってしまえばもうそのデータは二度と帰ってこない。そのことを考えたら一晩memtestを走らせておくくらい軽いものだろう。

最終的にかかったコストは、HDDが予備含め10本で75,000円ほど、M/B、メモリ、CPUで20,000円ほど、SATA I/Fが2枚で15,000円ほど、ケースが12,000円ほど(これは無茶苦茶な破格だった)と、ケースのファンがうるさすぎて全部交換したので5000円ほど、合計で127,000円程度(システム用HDDはジャンク箱に突っ込んであった160GBを流用)で収まった。ダブルパリティで保護された6TBの領域を持つNASとしてはきわめて安価だといえよう。

次は各種サービスをsolaris containerで動かしていこうと思う。opensolarisのポテンシャルの高さに、気がついたら全然NASでなくなりつつある。