これまでのポストの続き。引き続きデータを大量に突っ込んだりしてテストしているのだが、大量データ投入中、下記のようなエラーが連続して発生した。
-略-
May 10 07:23:09 melongena Error for Command: write(10) Error Level: Retryable
May 10 07:23:09 melongena scsi: [ID 107833 kern.notice] Requested Block: 52263759 Error Block: 52263807
May 10 07:23:09 melongena scsi: [ID 107833 kern.notice] Vendor: ATA Serial Number:
May 10 07:23:09 melongena scsi: [ID 107833 kern.notice] Sense Key: Aborted_Command
May 10 07:23:09 melongena scsi: [ID 107833 kern.notice] ASC: 0x8 (LUN communication failure), ASCQ: 0x0, FRU: 0x0
May 10 07:23:10 melongena scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,244e@1e/pci1095,3124@0/disk@0,0 (sd1):
May 10 07:23:10 melongena Error for Command: write(10) Error Level: Retryable
May 10 07:23:10 melongena scsi: [ID 107833 kern.notice] Requested Block: 52271544 Error Block: 52271752
May 10 07:23:10 melongena scsi: [ID 107833 kern.notice] Vendor: ATA Serial Number:
May 10 07:23:10 melongena scsi: [ID 107833 kern.notice] Sense Key: Aborted_Command
-略-
このエラーを調べると、一般的にはディスクが壊れる前兆として現れるらしいのだが、formatでディスクまるごとスキャンしてもエラーなし。
root@melongena:~# format
Searching for disks...done
AVAILABLE DISK SELECTIONS:
0. c3d0
/pci@0,0/pci-ide@1f,2/ide@0/cmdk@0,0
1. c5t0d0
/pci@0,0/pci8086,244e@1e/pci1095,3124@0/disk@0,0
2. c5t1d0
/pci@0,0/pci8086,244e@1e/pci1095,3124@0/disk@1,0
3. c5t2d0
/pci@0,0/pci8086,244e@1e/pci1095,3124@0/disk@2,0
4. c5t3d0
/pci@0,0/pci8086,244e@1e/pci1095,3124@0/disk@3,0
5. c6t0d0
/pci@0,0/pci8086,244e@1e/pci1095,3124@1/disk@0,0
6. c6t1d0
/pci@0,0/pci8086,244e@1e/pci1095,3124@1/disk@1,0
7. c6t2d0
/pci@0,0/pci8086,244e@1e/pci1095,3124@1/disk@2,0
8. c6t3d0
/pci@0,0/pci8086,244e@1e/pci1095,3124@1/disk@3,0
Specify disk (enter its number): 1
selecting c5t0d0
[disk formatted]
/dev/dsk/c5t0d0s0 is part of active ZFS pool tank. Please see zpool(1M).
FORMAT MENU:
disk - select a disk
type - select (define) a disk type
partition - select (define) a partition table
current - describe the current disk
format - format and analyze the disk
fdisk - run the fdisk program
repair - repair a defective sector
label - write label to the disk
analyze - surface analysis
defect - defect list management
backup - search for backup labels
verify - read and display labels
inquiry - show vendor, product and revision
volname - set 8-character volume name
! - execute , then return
quit
format> analyze
ANALYZE MENU:
read - read only test (doesn't harm SunOS)
refresh - read then write (doesn't harm data)
test - pattern testing (doesn't harm data)
write - write then read (corrupts data)
compare - write, read, compare (corrupts data)
purge - write, read, write (corrupts data)
verify - write entire disk, then verify (corrupts data)
print - display data buffer
setup - set analysis parameters
config - show analysis parameters
! - execute , then return
quit
analyze> read
Ready to analyze (won't harm SunOS). This takes a long time,
but is interruptable with CTRL-C. Continue? yes
pass 0
1953525042
pass 1
1953525042
Total of 0 defective blocks repaired.
もしかするといくつか前のポストに書いた、si3124ドライバに重負荷をかけると割り込みを落とす、という問題が顕在化しただけかもしれないが、zpool scrubをかけても異常は検出されなかったのでとりあえず放置することにする。
余談だが、zfsの何がいいかって、zfs情報をexportせずにOSそのものをクリーンインストールしてやったあと、zpool import一発でアレイ構成情報をすべて復旧できること。ファイルも失われないし、アレイの設定情報をメモする必要もない。繋がっているドライブの位置が変わっても自動的に認識してくれる。つまり私のような人間には大変向いているファイルシステムだということだ。素晴らしい。
続く。