::香农::青岛数据恢复中心::
作者:香农青岛数据恢复中心 2007-12-11 00:58
文章首页 |
---|
恢复不能恢复的数据-不依赖硬盘的数据恢复 |
2.2数据在硬盘中的组织 |
2.2.2定位数据 |
2.2.4数据解码 |
2.2.5硬盘的烧写和优化:超级调谐 |
3.数据恢复市场 |
4.数据恢复技术 |
4.1.3.更换磁头 |
4.2.2.磁显微镜 |
5.为什么数据不可恢复 |
6.未来的成功依赖于不倚赖硬盘数据恢复技术的发展 |
7.ActionFront的SignalTrace技术 |
8.结论 |
全部页面 |
香农青岛数据恢复中心 翻译
2005/6/7
本文谢绝转载,谢谢合作
1.概要
当一个含有重要数据的硬盘驱动器失去响应,用户的最后希望寄托于专业的数据恢复公司。似乎数据恢复公司拥有神奇的设备,在任何情况下都可以恢复数据。现实远非这样美好。最经久考验的,也是商业上最成功的技术包括:在洁净空间代换磁头、主轴马达、和其他基本组件,以及电路板、固件、和参数表。组件代换可以恢复数据的成功率大约为40%到60%之间。部分数据的恢复的成功率还要高一些。但是,某些型号的驱动器可以达到100%的成功率,另外一些型号的驱动器的成功率接近于0对这些驱动器需要采用不依赖于驱动器的数据恢复方法。另外,伴随着硬盘驱动器的数据纪录密度的增长,不能恢复的驱动器的比率会越来越高。
数据恢复的成功率如此之低应该归咎于硬盘生产商必须提高数据纪录密度,扩大市场占有率。特别是现在的硬盘在工厂中都进行了逐扇区的优化。数据结构、磁头、磁碟、电子部件和固件参数都被进行了优化。这意味着即使是相同型号的硬盘上的磁头、电路板或参数表,也不能互相替换。
ActionFrong数据实验室的SignalTrace(TM)技术是到目前为止,可以恢复传统的组件代换技术不能恢复的数据的唯一技术。SignalTrace(TM)技术使用定制的硬件、软件和算法代替硬盘的数据处理和定位功能,来精确的定位扇区数据并恢复每一个数据位不管硬盘采用何种硬件结构。甚至,此技术可以继续开发以支持未来的硬盘。
2.硬盘技术简介
1956年,IBM生产了世界上第一块硬盘驱动器:RAMAC(Random Access Method for Accounting and Control,计算和控制的随机存取方法)。它大约有两个冰箱那么大,可以存储5MB数据。它花费了50,000美元,或者说10,000,000美元/GB!现在,已经可以在3.5英寸的硬盘上取得100GB的容量,而价格不到1美元/GB。这种发展速度远远超过了半导体和通信的发展速度。对高数据容量、低成本的研究促使诞生了许多著名的硬盘相关的公司,但是也有许多公司黯然消逝。即使硬盘驱动器的先驱IBM,也在2002年将驱动器业务出售给了Hitachi公司。
在硬盘中,数据被纪录在一组称为磁道的同心圆上。要在同一磁道上容纳更多的数据,数据位之间的间隔就必须缩小。这种方式称为线性密度,数据的计算单位为bpi(bits per inch,每英寸比特数)或kbpi。相似的,磁盘上磁道密度的计算单位为tpi(tracks per inch,每英寸磁道数)或ktpi。tpi不仅反映了磁道的宽度,还反映了磁道之间用于磁头-磁道校准的导带(guardbands)的宽度。如图一所示。
面密度被用于衡量硬盘的数据存储容量。它是bpi和tpi的加权,反映了在磁盘表面上每平方英寸能容纳的用户数据。现在面密度的单位已经改为吉比特每平方英寸(Gb/in2)。与第一块硬盘相比,面密度已经增长了8个数量级。面密度的这种发展动向见图二。
数十年以来,面密度的年增长率(CAGR,Compound annual growth rate)大约为30%。在1990-1991引进MR(magneto-resistance,磁阻)技术后,增长率增加到了60%。而当到了90年代末,引进GMR(giant magnet-resistance,巨磁阻)磁头后,增长率一度增加到了100%。正是在此时促使了很多公司进入硬盘领域或被购并。现在面密度的增长率已经慢了下来,应该会回落到30%到60%之间的历史水平上。
现在已经可以达到100Gb/in2的面密度(如采用800kbpi,125ktpi)。在这种情况下位比率(bit aspect ratio,BAR)大约为6:1(bpi/tpi)。位与位之间的空间大约为1.25微英寸(大约为30纳米)。而磁道与磁道之间的空间大约为8微英寸(大约为200纳米)。磁道之间的导带大约为1微英寸左右(少于20纳米)。如图三所示,硬盘驱动器如此的发展速率大大出乎人们的意料。在硬盘上存储数据变得比在纸上或胶片上的成本更低。当前硬盘驱动器的存储成本不到1美元/GB。
当硬盘价格为数千美元的时候,硬盘修复可以作为购买一个新硬盘的低价替代选择。今天,硬盘有故障的最经济的处理方法就是重新再买一个。新硬盘更大,更便宜,而且更快。实际上,数据即使对于家庭用户的价值远远高于硬盘。
家庭用户的硬盘中越来越多的充斥着无价值的照片和电影。即使有备份,要修复一个损坏的硬盘的花费也远远高于硬盘本身。不过,备份数据往往是过时的(昨晚,上周,上个月)。因此最新的工作成果就全丢失了。不幸的是,许多公司虽然一丝不苟的进行数据备份,实际上从来不从备份中恢复数据。有时备份也可能损坏了。即使在冗余系统中如磁盘阵列,由于多个硬盘损坏导致的数据丢失也屡见不鲜。
因此,不管做了多少预防措施,仍然需要数据恢复公司来恢复数据。另外,为了打击犯罪,也必须恢复那些可以在法庭上作为证据的数据。
当你按下保存键,将数据写到硬盘,你期望在将来可以正确的打开所保存的文件。衡量数据完整性(data integrity)的规范用语是不可恢复的读取出错率(unrecoverable read error rate)。通常每读取10^13到10^15位的数据就会有一位出错。硬盘的每一部分都会影响这一指标,包括逻辑物理数据传输系统,伺服定位系统,硬盘优化方法,数据检测算法,和数据解码等。
文件不管是文本,数据库,照片,歌曲,电影,网页,可执行程序,或者其他存储在硬盘上的扇区(vsector)中。扇区是硬盘上的一个物理位置,通常设计为存储512字节的数据。由于编码的开销和检测算法的需要(后面简要讨论),实际上一个扇区只能存储600字节的数据。
扇区通常使用柱面(cylinder)、磁头(head)、和扇区(sector)(CHS)来唯一的标识。磁头(head)表示扇区位于哪个面上。柱面(cylinder)表示扇区位于哪个磁道上。扇区(sector)表示数据位于磁道的哪个位置。
硬盘是如何知道你的文件在哪里的呢?硬盘当然不会知道。这是操作系统的任务。操作系统保存有你的文件在硬盘上的位置(逻辑块)的记录。为了方便,我们把逻辑块作为一个数据扇区(逻辑块可能由多个一系列的扇区组成)。操作系统要存取一个逻辑块,例如#1,635,324。硬盘就会把逻辑块逻辑块的地址转换为物理块的地址(CHS),如柱面5,000,磁头1,扇区452。虽然有快速算法来完成这种转化,不过如果逻辑块对应的物理块含有缺陷(defect)时算法就复杂了。
故障处理程序会发现并映射缺陷(defect)扇区。当硬盘正在使用时也可以完成检测和重映射缺陷的工作。硬盘上有很多空闲的扇区和磁道用于替换缺陷扇区。这对于操作系统是透明的。硬盘接收到逻辑块地址后进行逻辑-物理 译码(logical-to-physical translation)。不同的硬盘实现译码的方法是不同的反映在硬盘的表面自测程序中。
硬盘会由于碰撞,不正确的操作活其他原因导致产生缺陷。缺陷被记录在缺陷表中(有时也称作P-表和G-表,分别代表primary表和grown表)。缺陷表通常存储在硬盘的最外面的磁道上。这些磁道通常称为系统区,维护磁道,固件区或负磁道等。不过,某些型号的硬盘把缺陷表存储在印刷电路板伤得非易失性存储器中。显然的,通常不同的硬盘的缺陷表是不同的。
直到上世纪80年代,硬盘的磁道通常有着相同数量的扇区。磁盘的外圈(称为OD,外半径)的磁道显然比内圈(ID,内半径)磁道要大。这意味着内圈磁道的线性数据密度(bpi)要大于外圈磁道。所有的磁道可存储的数据都少于它们所能存储的最大数据量。见下图所示。
要增大硬盘可以存储的数据量,将磁盘表面上连续的磁道划分为区(zones)。硬盘的每面有8到32(或更多)的区。从内圈(ID)到外圈(OD),以增长的频率将数据写到区中,以抵消由于磁盘半径的增大带来的线性密度的增长。每个区(zone)的bpi有稍微的不同。将硬盘划分为区(zone)有效的利用了硬盘的所有容量,不过也意味着需要在生产中需要对每一个硬盘的每一面都要进行唯一的优化设置。下图中显示了外圈(OD)zone的bpi的示意图。
用户的文件可能存储在许多扇区中。这些扇区也许分布在不同区(zone)的不同磁道上,甚至是不同的面上。逻辑块也可能映射到不同的物理扇区上(受缺陷的分布的影响)。
磁道的宽度少于10微英寸。硬盘必须在几毫秒之内找到目标磁道,并反复的随机的定位于相隔几微英寸的磁道。更有趣的是,这样的产品的销售价格要少于100美元。伺服定位系统使用反馈控制算法来进行快速寻址和精确定位。
为了取得最好的性能,伺服系统需要精确的测量磁头与磁道的相对位置。硬盘的面被划分为扇区和伺服内嵌(servo wedges)。伺服内嵌为从ID扩展到OD得弧形区域。它们是一些唯一得磁性图样,用于指示磁道的中心位置。
伺服内嵌的bpi通常比数据的bpi低的多,它的频率在整个磁盘上是恒定的。它不包括在zone中。这意味着OD(外圈)的bpi要低于ID(内圈)。换句话说,ID的伺服内嵌比较短,而OD的伺服内嵌比较长。通常每圈均匀的有50到200个伺服内嵌。这种伺服内嵌信息在磁盘的每个面都有。
下面的图中显示了三个数据磁道(高bpi部分,中间有导带)和一个内嵌伺服区。内嵌伺服区以单一的频率图样开始,以建立定时和放大参考。同步图样指示了经过编码的柱面号(或磁道ID)。随后是三个或六个单频的磁脉冲(为了清晰,图中只给出了两个)。这些脉冲提供了精确的位置信息,以使磁头定位到磁道中部。
?头两个脉冲一般称为A 脉冲和B 脉冲,在中心之外。当磁头准确的定位于磁道中间的时候,它会从A脉冲和B脉冲得到两个大小相等的信号。两个脉冲信号的相关大小提供了磁头位置与磁道中心的精确信息。由于伺服信息位于磁道上的数据之前,伺服脉冲实际上决定了磁道的中心位置。磁道ID指示了磁道的编号。
伺服系统还定义了扇区。它通过在每一圈第一个伺服内嵌的同步和定时信息来指示磁道上每个扇区的起始和终止位置。zone与zone的定时信号是不同的,而伺服嵌入与伺服嵌入的定时是恒定的。
每个扇区都是由一系列的二进制数字1和0组成(由磁性的转变表示)。磁性转变是指由北极转变为南极或相反。这也被称为北-北转变或南-南转变。GMR(巨阻)磁头在读取时会产生相应电压脉冲。电压脉冲的极性就指示了磁性转变的极性。
下图中显示了回读扇区数据的示波器波形的截屏。下部的轨迹是读门。这是由伺服系统根据时间偏移产生的。前面已经提到,zone与zone的时间偏移是不同的。
检测数据的过程实际上就是检测脉冲有无和脉冲的极性的过程。不过,检测是在噪声环境中进行的,所以会产生错误。甚至,回读信号会被各种因素扭曲,包括磁头稍微偏离磁道。在bpi较高的时候,就会发生重叠,引起符号间干扰(ISI)。这使的识别数据序列特别的困难。今天的硬盘使用变异的和扩展的部分响应最大相似(PRML)序列检测以纠正数据错误。在未来可能会使用更复杂的方法,如反复检测方法(interative detection)。
为了取得最好的误码率性能,需要对每个扇区都设定适当的增益,将检测的回读波形锁定在精确的频率和相位上。为了达到这一目的,在存储数据时要满足三个要求:
1)每个扇区必须以一个单一的频率序列开始。这通常称为前置序列(preamble,预增益),约为10到15字节长。预放大可以更容易的建立扇区的增益和定时同步。同理,每个伺服字段也以一个单频的前置序列开始。
2)有可能用户数据的起始部分与前置序列的图样相似。为了精确的定位前置序列的结尾,在前置序列和用户数据之间插入了同步标记或帧同步。同步标记通常为2到6字节长,而且写到了两个位置以防备第一个同步标记损坏的情况。
3)在磁头找到同步标记后,必须对随后的用户数据保持正确的增益和时间锁定。所以必须至少每隔两到三字节就要有一个脉冲,以调整增益和时间锁定。例如,如果用户数据为全零,在传输数据时就不会产生脉冲,就不会保持同步。因此,必须在写到硬盘之前对用户数据进行连零(连一)抑制(run-length limited,RLL)编码。这会使最终写到硬盘的数据增多12.5%(与RLL编码方式有关)。http://www.shannon.net.cn
PRML检测技术要求被检测脉冲的形状符合一定的要求,并且知道脉冲之间的关联性。要达到这一目的,必须对回读信号进行使用固定的和自适用的滤波。为了达到最好的性能,所有的信道参数都应该针对每个驱动器的每个磁头的每个区(zone)进行优化(调整或调谐)。ChannelScience的读信道模拟软件包PRMLpro(见下图),建立了大多数从磁碟,磁道和光驱回读波形中检测二进制序列的信号处理的模型。
即使进行了以上的工作,检测后的原始误码率也只有10e-5到10e-8。为了取得规定的10e-13到10e-15的误码率,必须使用纠错编码。
在现代HDD中,用户数据在写到磁碟之前要进行5次编码。这样做是为了:
1)确保没有错误数据传递给用户;
2)尽可能多的纠正检测过程中的误码;
3)通过改进定时恢复和抑制容易产生误码的图样来改善检测质量
由于进行了编码,最终写到磁碟上的数据已经不是用户的原始数据了。即使使用PRMLpro这样的工具来恢复数据,也只能检测到编码后的数据。要取得可以重组成文件的有用信息,必须针对编码步骤进行解码。http://www.shannon.net.cn
其中一个编码步骤是数据随机化,也叫做扰码(scrambler)。扰码可以看成是一种将数据伪随机化的电路。令人惊奇的是,这带来了一些有用的好处:
1)重复图样被打破了。也就是说,它不再与普通图样相似(如控制字符,空格,回车等频繁出现的难于检测的图样),从而降低了误比特率(BER,bit error rate)
2)由于某一频率的重复图样产生的电磁干扰(EMI)也减少了
3)许多零组成的普通图样被扰乱(Srambler)成为含有较多1的图样。这有助于增益和定时控制回路锁定。
4)这也可以将相邻的磁道扰乱成为不同的图样。这可以降低磁道之间的相关性,从而在磁头稍微偏离磁道中心时增加正确检测的可能性。
由于数据位是伪随机化,所以可以在回读时将扰码解扰为原始数据。要成功的解扰,需要精确的同步标记。注意扰码并不禁止任何图样。例如,有可能将用户数据扰码成为全零图样。因此,仍然需要对扰码后的用户数据进行RLL编码。
通常对PRML信道进行RLL编码会将16 bit的扰码后的数据映射成17 bit。编码开销约为6%(17/16)。这种编码方式确保两个1之间的连零的数量不会超过一定值(10到15)。这样在回读波形中就有足够的脉冲用于增益和定时。有一些RLL编码的速率高于16/17。还有一些RLL编码被设计用于消除容易产生误码的图样。在一个磁碟表面上不同的区(zone)可能会使用不同的RLL编码。
现在,大多数硬盘将RLL编码和奇偶校验码联合使用。这会使RLL编码的开销增加1到2 bit。例如,64/65码(64 bit用户数据被编码成为65 bit RLL码)增加奇偶校验后会成为64/66码。增加少量奇偶码的好处是大多数由检测器产生的误码可以被检验出来,并且可以通过增加少量的电路和编码开销来校正。
但是,所有上面得编码方案仍然不能达到使读误码率优于10e-13的目标。只有使用纠错码(ECC)才能进一步降低误码率。ECC计算用户数据的校验和,进行冗余编码以便在解码时纠正误码。ECC编码的数据是经过扰码和RLL编码后的数据。由于RS(Reed-solomon,里德-索洛蒙码)具有较强的纠正突发误码的能力,和实现的成本比较低的优点,所有一般都采用RS码作为ECC编码方案。突发误码是由于挂擦或标记损坏造成一段连续的bit误码。ECC编码可以校正一个扇区中200 bit的误码。
有两种情况会使ECC失效。一种是扇区中有太多的误码。这是不可恢复的读误码。不过,硬盘会尝试几种heroic recovery(英勇的恢复)方法,如重读,偏离磁道重读,甚至重优化,来尽最大努力检测数据,实在不行最后报告一个不可恢复的读误码(也称为硬误码)。另外一种使ECC失效的情况更为危险。
如果扇区中的误码超过了ECC可以校正的能力,那么ECC解码时就会把正确的bit纠为错误的bit。这对于金融业来说是一个悲剧。错纠的概率,或称为数据讹误(data cottuption),在硬盘的数据手册中没有定义。理想上这种概率小于10e-20。为了避免错纠,ECC编码往往还要封装上CRC(循环冗余检验)码。CRC具有很强的检测错误的能力,但是对于纠错没有什么帮助。这种方法可以检验通过接口最终传输到计算机的数据的正确与否。
下图中显示了编码序列和磁道上扇区的组织。注意为了使分区(zoning)的效率最大,某些扇区被分割为两个伺服内嵌。被分割开的
第二部分扇区必须也要以前导序列(preamble)和同步标记开始。从两部分检测到的数据序列被连接起来,然后再进行解码和解扰。
硬盘组装完毕之后,生产商要对每个硬盘进行烧写(burn-in)。根据硬盘的质量和市场需求,烧写(burn-in)过程可能会耗费一个小时或一天多。硬盘会进行寻址性能测试,耗电测试,数据操作,接口测试,抗震动性能,温度和和功率极限,表面扫描,噪声测量等一系列的测试。
只有在此时,硬盘的各项参数,数据组织和定位才被确定。这些优化参数通常保存在硬盘上最外磁道(负磁道)上的表中。某些品牌的硬盘在每面上都保存有一份参数表的拷贝。
现在的硬盘可以使用自伺服写入机(self-servowriting)。这意味着硬盘自身在烧写(burn-in)的过程中建立了伺服图样。这样可以相当灵活的其设置bpi/tpi,以在最佳性能的基础上取得期望的容量。这有时也被称为校准格式化(adaptive formatting)。一些磁头物理参数也是必须要测量的,包括磁头读写部分之间的偏移,阻抗,温度,脉冲的不对称,等等。还有多个磁头参数也必须优化,如写入电流,读偏压电流,还有保证回读信号线性的写预补偿(write precomensation),等等。
在bpi/tpi,zone,写入参数,和读取参数确定之后,接下来优化检测参数。检测参数必须针对每个硬盘的每面的每个区(zone)才能确定。
一个有六个面的驱动器,每面有16个区(zone),需要在参数表中存储96组信道优化设置。这些信道设置包括均衡(equlizationg)和白噪声滤波器系数;增益,定时,和校准参数;检测参考波形(target);RLL码选择;等等。对于伺服嵌入信息的检测也必须保存相似的设置。
每一代驱动器,原先常量的参数都会成为变量的参数。这些新变量必须都要进行优化,从而导致现代硬盘驱动器中出现了超级调谐(hyper-tuning)。
3.数据恢复市场
在完成这篇著作的时候,从Google搜索返回了1千五百万条有关数据恢复的条目,包括许多数据恢复公司和DIY技术站点。搜索的结果也显示部分从备份中恢复数据的也自称数据恢复。这篇白皮书中,专业数据恢复的定义是:从失去响应的计算机和备份以及损坏的和删除的文件中恢复有用的数据的过程。这一过程需要大量的劳动,高端的技术,而且要在一个完美的受限的环境中。这与灾难恢复(通常指从完好的备份中恢复丢失的数据)是不同的。
由于有众多的数据恢复组织,却没有工商业联盟或标准化实体,有关数据恢复的成功率的统计也无从得知。不过,作为一个处于先进地位的数据恢复公司,ActionFront Data Recovery Labs,Inc估计全世界每年大约有30万个硬盘被发送到数据恢复公司,大约有一半到四分之三的硬盘有读取问题,或者是这能读出一小部分数据,或者是有大量的错误,过多的重试(retry),等等。大约有三分之一到一半的硬盘是完全不可读的,包括:主机不能识别,不能起转,不能返回任何数据,等等。作为参考,据估计2003年约有2亿6千万只新硬盘的销售量。http://www.shannon.net.cn
在网页上,数据恢复公司经常宣称成功率超过90%。但是没有任何文件或独立的调查来支持这一结论。事实上,所谓的成功率只局限于部分型号的硬盘或者他们接受恢复的硬盘而不是所有的硬盘。其他型号硬盘的成功率接近于0。
还有一些有关数据恢复的极端例子,如遭受火灾、水灾、雷电等损坏的硬盘甚至是子弹和爆炸!这些有趣的恢复案例(有时出人意料的简单),却隐藏着大量的主要的硬盘损坏的真相由于平常的因素导致硬盘停止工作。
包括:
●开焊,电子部件或印刷电路板(PCB)的接头问题;
●超出S.M.A.R.T(Self-Monitoring,Analysis,and Reporting Technology)阈值
●固件损坏
●固件bug
●用于校准,测试,存储固件和参数表的系统区损坏
●主轴或音圈马达损坏(如,短路,开路)
●轴承卡住
●轴承润滑油失效
●碟片移位
●磁头损坏
●过热
●其他原因
现在有许多著名的数据恢复公司。但是对于最终用户来说,要确定哪家公司值得信任是困难的事。他们也无从得知,他们的硬盘的恢复率到底是90%还是0。
一家注重声誉的公司会告诉你他们是否对你的硬盘有把握。但是,尽管某种型号的硬盘的恢复率可以达到很高的比率,如果他们从来没有恢复过这种硬盘上的数据,就有可能会损坏硬盘,使得数据永远不可恢复。当你得重要得数据命悬一线时,你应该要确定是因为硬盘的原因而不是数据恢复公司的原因使得数据不可恢复。
在过去,一些硬盘生产商授权给一些数据恢复公司。但是由于害怕牵涉到法律纠纷中,他们已经放弃了这一做法。在一些主要的硬盘生产商的主页上,他们的有关数据恢复的帮助变成了使用Google搜索的链接,并且警告用户他们不作任何承诺。
如果最著名的数据恢复公司能够成立一个协会,对于硬盘用户就可以提供最大的帮助。这个协会应该提供给数据恢复专家一个认证程序,还应该收集合发布有关不同型号硬盘恢复的成功率的统计数据。另外,它还可以指导军事部门,法律部门和情报部门如何选择最好的数据恢复公司。
增加数据恢复公司透明度的最好的方法就是建立行业标准 。包括提供更多的有关恢复技术的信息。还可以在主页上列出恢复率最高或最低的硬盘型号。不过,除非最顶级的公司也采用这些做法,否则这些做法有可能给用户寻找数据恢复公司时带来负面影响。用户也许会对宣称拥有神奇的设备和专有技术并且成功率超过90%的公司更感兴趣。
4.数据恢复技术
这份白皮书主要关注的是数据的硬件恢复方法。不管采用何种方法从损坏的硬盘上读取扇区数据,最终都要将数据重组为文件。这一工作是由计算机软件完成的。然后要将文件写到另外的存储设备中,并返还给用户。
虽然硬盘驱动器损坏了,但是磁盘的表面有可能还是完好的。如果磁盘没有物理的损坏,那么用户的数据就还在那儿。如果磁盘已经物理损坏,那么磁盘上磁介质受损的地方就没有数据了。磁盘的磁介质只有一微英寸厚,所以任何挂擦都可能将磁介质完全擦除。在普通工作模式下之所以磁头不会挂擦磁盘,是由于磁头飞行在磁盘表面上——但是飞行高度只有不到1微英寸!如果磁盘变形使得磁头不能再飞行,那么就没有可以商业化的方法来恢复数据了。
从损坏的硬盘上恢复数据的最高级、可以商业化的方法是代换损坏的硬盘部件。如果要代换的部件位于磁头/磁碟组件(HDA)内部,那么需要在一个完全洁净的环境中才能进行(如下图所示)。记住磁头的飞行高度只有大约1微英寸,所以即使一个手印或者一个粒子也会使得硬盘坠毁,从而对硬盘上的数据造成更大的破坏。
要保证代换部件可以成功,必须要拥有可供代换的部件。显然硬盘生产商不会提供备件。因此不得不从其他完好的同型号的硬盘上拆卸需要的部件。但是,由于磁头-磁碟与超级调谐的参数必须严格匹配,因此要找到合适的可供代换的部件并不容易。
大多数发送到数据恢复公司的硬盘是几年以前的,市场上已经不再销售。因此数据恢复公司必须保留足够的可供代换的部件。下图显示了ActionFront的拥有的备件。
部件代换中最简单的要属代换PCB(印刷电路板)了。即使不在洁净空间中也可以进行这一工作。如果代换PCB取得成功,并且没有其它的硬件故障,那么就可以打开硬盘电源了。硬盘会起转,磁头会寻址,然后固件和参数表会被从磁盘的固件区读出,这时硬盘上的数据就可以正常访问了。http://www.shannon.net.cn
但是如果硬盘的PCB上载有非易失性存储器,那么只代换PCB是不够的。在某些情况下可以将此存储芯片从损坏的PCB上移到代换的PCB上。不过若代换PCB的PRML读信道版本与原始PCB不符的话,只代换PCB也是不会取得成功的。参数表中的信道设置与读信道芯片也是相对应的。另外如果硬盘的固件区损坏,致使不能寻址固件区并读取固件和参数表,那么代换PCB也不会取得成功。
一个正常的硬盘在加电后会有以下一系列的动作:
1.芯片返回加电状态信息。
2.如果一切正常,主轴起转并达到额定RPM(每分钟转速),如10,000RPM。在这之前,磁头停泊在停泊区,并由臂锁固定在安全台上。停泊区可能位于磁碟的最内圈(ID)。某些使用凹槽嵌位的驱动器,停泊区位于磁碟的最外圈(OD)。
3.当达到额定的RPM后,驱动臂脱离臂锁,硬盘的电子子系统可以读取其中一个磁头上的信号,以寻找伺服内嵌(servo wedges)。磁碟每圈大概有50到200个伺服内嵌(servo wedges)。然后硬盘就由存储在PCB上的ROM中的简单程序(固件)来控制了。
4.当寻找到伺服,进行同步后,硬盘就可以寻址固件区了。固件区一般位于至少一个磁碟的最外圈(OD)。
5.此时硬盘读取固件(磁盘固件)。磁盘上的固件可以更精确的控制硬盘的程序,程序被载入到RAM中并执行。固件区还包括有关磁头的物理特征的参数表,信道优化设置,数据层,还有被重定向的缺陷扇区。
6.接下来硬盘会执行一些自测和重校准。然后就会发出准备就绪的信号。
很显然,如果硬盘不能读取固件数据,就会给代换固件增加相当的难度。如果停泊区附近的磁介质被破坏,就无法获取伺服。如果固件区所在的外圈(OD)遭到刮擦,超级调谐的参数就会丢失,固件和缺陷管理信息也会丢失。
一种有时会奏效的修复损坏的硬盘的技术是启动一个完好的硬盘,使其将固件和参数表载入RAM;然后将PCB热交换到损坏的硬盘的HDA上。也可以将正常硬盘的RAM内容快照写入到损坏的硬盘的RAM中。
不论用何种方法使损坏的硬盘载入固件,最好的结果是硬盘起转,然后与它自身的伺服同步,之后就可以寻址了。当然,由于RAM中还会载入替代硬盘的缺陷表。
更换磁头需要非常高的技术水平操作时不能损坏任何其他的部件。磁头通过悬臂连接到一个E形架上,E形架中间还有一个轴承。这些部件连同音圈马达被称为磁头组。更换磁头时应该更换整个磁头组。这也被称为磁头移植。
更换磁头时需要特别的小心,要确保空气轴承面(air bearing surfaces,实际上应该称为sliders)不能互相接触。否则它们将很容易的损坏或粘在一起。移除磁头时,绝对不能使它们在磁碟表面上拖行导致更大的损坏。可以借助一些工具,如comb,来将磁头搬离磁碟表面。
在将完好的磁头装配回硬盘的时候也需要同样的小心。
如果基座已经严重的损坏,或者主轴电机已经烧毁,或者主轴轴承被卡住了,就需要将磁碟移动到另一个硬盘。这一操作需要具有比更换磁头的更高技术能力.
在转移磁碟时必须保持磁碟之间有一定的距离,必须保持排列不变。这可以保证重装配后更容易寻找的伺服。光滑的磁碟和磁头一样,很容易会粘在一起。如果磁碟粘在了一起,就没有办法可以无损的将它们分开。http://www.shannon.net.cn
将磁头与磁碟重新转配后,就可以加电了。
某些数据恢复网站上声称他们拥有神奇的设备可以从损坏的硬盘上恢复数据。但是我们没有看到在商业应用中有这样一种设备。如果他们拥有所谓的神奇的设备,他们早已经赚的杯盘满盂了。
据说美国国防部反恐技术研究局发布公告寻求这样一种神奇的设备,来销毁数据。
数据恢复公司宣称的任何专有技术可能只是一些工具,如梳形支架,或者其他保护硬盘部件免遭破坏的工具。数据恢复公司也会宣称他们拥有软件工具来重组扇区上的数据为有用的文件。
不过,硬盘生产商却拥有专门的设计和分析硬盘部件的设备。这些精密的仪器,主轴测试器和磁力显微镜(MFM)可以用于恢复数据。
硬盘生产商和配件供应商(磁头、磁碟、前置放大器及读信道芯片)拥有非常精确、非常昂贵的神奇的设备主轴测试器。主轴测试器被用于磁头、磁碟的测试和试验。主轴测试器主要是研发部门使用,用于产品测试、质量控制等。
主轴测试器非常精确和灵活-可以用来分析原始的磁碟。使用主轴测试器可以非常精确的(精确到纳米)向磁盘上写入任何数据。不过,主轴测试器一般用来写入伺服信息。从硬盘上读取数据是难度更大的事。
首先,磁头与磁碟之间的距离必须足够的近。其次电子部件和软件要寻找磁碟上的伺服信息。如果伺服信息可以跟踪到,接下来就可以优化磁头和信道的参数。上面的条件都满足了以后,才可以读取磁碟上的数据。
不过,主轴测试器必须要知道精确的读信道参数和编码方式,如扰码(scramble),RLL编码,ECC编码等。必须对编码的数据进行解码然后重组为有用的文件。注意磁头是在磁碟的表面飞行,所以磁碟不能有任何损伤。
实际上,要实现上述的条件是非常困难的。需要雇佣有足够知识水平的人并且花费大量的资金来进行试验。对于数据恢复公司来说就更困难了。
用一种不依赖于硬盘、近似主轴测试器的设备来恢复数据是急切的需求。这种设备可以提供相似的灵活性,可以检测和解码用户数据,但价格要便宜的多,可以兼容多种驱动器,并且可以持续的支持未来生产的驱动器。
磁显微镜(MFM)可以用来分析磁碟上的数据。它也是一种原子显微镜(AFM),只是通过MFM获得的是磁碟表面的数据和伺服信息的磁力。通常这种仪器同时具有AFM和MFM的功能。
下图显示的是一段磁道的的MFM图像。发暗的和发亮的水平线是跃迁。假设跃迁线代表1,则跃迁线之间代表0。下图清楚的显示了磁道之间的导带,而且边缘还有一些弯曲。
MFM的探测器靠磁碟表面必须足够的近,才能获得磁数据图像。因此,对于严重损坏的磁碟(如弯曲的)就无能为力了。它最大的缺点是速度特别慢,它一次只能扫描100微米。http://www.shannon.net.cn
作为最极端的例子,如果一个3.5英寸的磁碟损坏了,使用MFM来扫描,假设MFM可以在一分钟内完成一次扫描并移到下一个区域(这是非常快的速度!)。那么将花费整整60个星期才能完成。如果磁碟上有50GB的数据,由MFM扫描生成的图像文件将是非常巨大的--可能达到数十TB!要恢复数据就需要将所有的文件连接成为一个文件,然后使用一定的算法来1)根据伺服信息定位磁道2)生成读门,来定位扇区的开始和结束。最后,从磁道中部提取的信号要经过解码重组为有用的数据。
磁显微镜(MFM)最迷人的应用是读取被覆写的数据。如下图所示,当磁道上的数据被覆写后,仍然保留有以前的数据痕迹。这是由于写磁头的微小震动或者主轴偏离造成的。所以可以采取上面提到的步骤将磁道之间的数据信号提取出来。不过这个工作难度更大,误码率也更高。而且被覆写的数据随着主轴非周期的偏离而时隐时现。因此,这一方法只适用于对国家安全非常重要的场合。
要提高使用MFM扫描的速度,可以使用主轴测试器来获得数据的磁图像。也就是说,使用GMR来代替MFM探测。这可以在数小时之内扫描一个硬盘。
不过,这仍然会产生数T比特的图像。还必须将图像正确的排列,再使用算法根据伺服信息来定位磁道。从磁道中部(或导带)提取的数据,经过解码重组为有用的数据。作为对这种系统的改进,可以在扫描时就根据磁碟上的磁性信息来定位伺服信息。
尽管Exotic方法理论上是可以恢复数据的,而且在文学作品中也有讨论,但是尚没有任何商业化的可能。甚至没有任何成功恢复文件或数据的案例只有图像或原始的数据。
5.为什么数据不可恢复?
从前面的论述可以看到,用代换部件的方法来恢复数据现在变的困难,在将来会更困难。代换部件失败有许多原因,大部分是由于生产商为了取得最高的数据密度而采用超级调谐(hyper-tuning)的缘故。
硬盘根据特定的磁头/介质/电子部件来优化参数,并对读部件、写部件、主轴和磁头组之间的相对位置进行校准。由于采用了超级调谐(hyper-tuning)的方法,硬盘可以容许的参数误差非常小,而且会变的越来越小。部件代换的方法更易在参数范围较宽的硬盘上取得成功。http://www.shannon.net.cn
驱动器和固件都要经过优化,以保证数据的可靠和完整而不是为了提供恢复数据的可能。硬盘在进行超级调谐时(hyper-tuned)针对特定的磁头/介质/电子部件进行优化的参数
产生的参数使得硬盘可以在非常窄的动态范围内工作的非常完美。
因此,固件代换会由于许多原因而失败。
◎用于检测伺服信号的信道设置偏离正常值很多
◎虽然可以与伺服同步,但是磁头偏移偏离正常值而不能正确寻道
◎用于标识硬盘的校准格式化信息,如bpi和tpi的区表(zone table)与实际不符,使得数据无法读取。
◎关键的文件所在的扇区被添加到了缺陷表中(G表或P表),或缺陷扇区被从缺陷表中释放出来
◎信道设置不正确,使得读误码性能严重劣化
在一个数据密度为100ktpi的硬盘中,每个磁道的宽度小于10微英寸。而规定要求伺服磁道应在磁道中心10%(1微英寸)的范围内。对于3.5英寸的硬盘来说,内圈(ID)和外圈(OD)之间的距离约为1英寸。这意味着伺服的控制要跨越6个数量级。
要达到这一要求,需要在工厂中测量或校准硬盘的某些物理参数。例如,磁头的读、写元件之间的偏移,和由于偏移角(skew angle)效应造成的磁道与磁道之间的相关变化。还有因磁道不是精确的圆而必须加以修正的参数。这被称为偏心,会造成周期性的脱离(RRO,Repeatable Runout)。可以测量RRO并采用一定的伺服算法,在磁碟每旋转一圈时进行补偿。下图直观的显示了由于磁头代换引起的磁碟中心偏离,从而导致的RRO。
从前置放大器回读的信号取决于介质和磁头。因此硬盘也针对前置放大器和读信道进行了参数优化。
磁头代换会由于下面的原因导致失败:
◎磁头的飞行高度显著不同,导致脉冲变形,信号衰减或信号饱和。
◎磁头的灵敏度与介质的磁强度(medium's magnetic strength,Mst)相比显著不同,导致脉冲变形,信号衰减或信号饱和。
◎磁头没有对正原来的位置,导致额外的偏心率,使得不能跟踪伺服(或者不能达到参数的要求)。
◎磁头之间的距离不同,导致磁头重载(reloading)困难,有可能会损坏磁碟。
将磁碟从损坏的硬盘搬移到另一个硬盘上,会存在与磁头代换相同的问题。除此之外,它还存在另外两个问题:
用户的文件可能分布在多个面上。这就要求每个磁头的伺服要无差别的传输。要达到这一要求,
在墙上画的画,在石头上刻的图像,或者在皮革上涂的颜料可以保存数千年的时间。但是记录在磁体上的数据就不会这样持久了。通常,我们将数据记录在磁碟上或磁带上。过去,人们可能期望磁记录的数据可以在日常情况下保存50年到100年。但是,数字数据有存在两个特有的问题:http://www.shannon.net.cn
首先,数字信息或是可以全部恢复,或是完全不能恢复。例如,书写,绘画或者雕刻会随着时间逐渐消磨。但是当数字数据减弱到ECC不能纠正,那么数据就算丢失了。其次,磁数据并不是人可以直接阅读的。也就是说,需要借助于机器的帮助来读取磁数据。很明显这与可以用裸眼阅读的绘画、雕刻和书写截然不同。如果用来读取特定介质的部件损坏了,那么即使磁性图样仍然完好,数据也完全丢失了。即使硬盘是完好的,用来读取数据的程序很支持硬盘运转的程序也必须是完好的。
磁性逐渐减弱通常是由于热效应。简单的说,某一数据位可能由数百万计的原子来维持磁性的方向;经过许多年,热能会使得某些原子忘记它们的磁性方向。这时,用来保持数据的原子减少了,意味着只需更少的热能就可使得其它的原子忘记它们的磁性方向。经过一定时间后就会达到雪崩点导致磁性消失、数据丢失。这被称作超顺磁效应。
数据位的热稳定性随着数据密度的增长而迅速下降用来保持磁性方向的原子比原来减少了。高温环境会加剧热衰退。另外向某一磁道写入数据会导致邻近磁道的数据位的磁性衰退。虽然不广为人知,但是在现代驱动器中用来检查热衰退的程序会重写发生衰退的扇区。
不幸的是,未来有许多的家庭录像会由于放置在闷热的阁楼里,导致影像由于热效应衰退或丢失,从而使人们失去许多的回忆。
6.未来的成功依赖于不依赖驱动器的数据恢复的发展
要恢复当前不可恢复的数据需要不依赖驱动器的数据恢复技术。这种技术必须可以从大多数型号的硬盘中恢复用户数据,并且费用低廉。此种技术的需要满足的条件如下:
商业上可实现的不依赖驱动器的数据恢复的最小条件:
◎对于最终用户必须省时,省力,省设备和省钱。
◎必须可以从磁碟表面的任何位置读取任何扇区的数据
◎必须可以持续的改进以在更新的信躁比更小的硬盘中提供更好的误码率性能
◎必须可以灵活的兼容不同厂家、不同硬盘型号甚至不同硬盘采用的不同的信号处理和编码方法
◎必须联合使用离线方法来检测每个硬盘的硬盘层、校准格式、伺服图样和检测/解码参数。
不依赖驱动器的数据恢复的其它要求:
◎与从故意损坏的磁碟中提取信号的其他方法兼容,作为世界性的反恐活动和法律事务的辅助
◎可以恢复发生热衰退的重要的有历史意义的数据
◎可以恢复非常久远的驱动器中长期活动获得的数据
7.第一个公开展示的不依赖驱动器的数据恢复的方法:ActionFront的SignalTrace(TM)技术
在2004 IEEE NASA 大容量存储系统和技术会议(Adelphi,Maryland)展厅里,ActionFront数据恢复实验室公开展示了不依赖驱动器而恢复用户数据、使用SignalTrace技术的原型系统。
在下图中,原型系统代替了硬盘的PCB电路板。整个系统包括一个去除PCB的硬盘,一个电源,一个微分探测器;一个用于捕捉磁头回读信号的数字转化器;获取伺服,同步,寻址和跟踪的算法;图中所示的电路板和检测,解码,解扰及ECC纠错的算法;一台控制整个系统的PC。做为原型机,PC还承担着检测和解码的任务.
在恢复演示中使用了一个WD生产的硬盘(WDE4360)。为了进行演示,使用了一个特殊的程序将用户指定的文本数据写入到硬盘的每个扇区。程序还将唯一的LBA附加到文本数据中。在回读时,就可以根据LBA来判断是否可以控制硬盘从正确的扇区读取数据。写入数据后,移除硬盘的PCB。http://www.shannon.net.cn
演示中使用ActionFront的原型系统按照下面的操作进行。SignalTrace(TM)的马达控制器使硬盘达到额定的转速(RPM)。音圈马达(VCM)用一个大电流驱动磁头组脱离硬盘的磁性臂锁。然后逐渐减小电流将磁头组推动到磁碟的外圈(OD),知道VCM产生的力与发条的力达到平衡。
这时,SignalTrace(TM)的原型系统开始获取伺服内嵌并进行同步。它命令主轴控制器根据伺服内嵌的定时信息来调整RPM。它还寻找由伺服提供的主轴索引。它是由主控PC中的SignalTrace(TM)软件来选择任一磁头来完成这一工作。
在PC的控制下,硬盘可以使用任意磁头来寻址任意磁道。寻址-定位时间大约为5-10秒。单一磁道的寻址时间少于1秒。伺服控制算法使用Motorola MCS5407 ColdFire微处理器实现。注意,原型系统必须使用伺服层,zone频率,信道参数和码型预编程。这些参数通过离线来检测。http://www.shannon.net.cn
磁头/前置放大器回读整个磁道的信号,或者磁道的一部分信号,通过由微分探测器连接的高速数字转换器采集。回读的信号以10倍于zone的数据速率的速率进行取样,以获取原始的噪声模拟波形(见下图中的A)。系统只采集磁道的非伺服内嵌部分。稍后将展示这一过程。
在正式的产品中,对波形的检测和解码将使用硬件FPGA来完成。而在原型系统中,使用PC来完成这些工作。检测算法使用预设的滤波,增益和时域环参数,及检测目标。这些参数都是使用离线的方法检测并如图中所示进行设置(见图中的B)。
对模拟连续信号时域滤波的结果示于图[C]。信道信号处理的其他过程没有清楚的显示出来。不过,自动增益控制(AGC),锁相环(PLL)控制取样,和自适应有限脉冲响应滤波(FIR)是在PC中进行的。对逻辑1和0的检测结果显示在图[D]中。
在进行RLL解码(见图E)之前必须找到同步标记(sync mark)。RLL解码之后,还要对数据进行解扰(descramble)才能看到如图[F]所示的ASCII文本和它们的LBA地址。注意,虽然LBA地址找到了,但是在图中没有显示出扇区。在检测过程中出现了一些错误(不是故意的),要使用ECC进行纠正(图G)。
上面显示了控制硬盘的全过程和不依靠原硬盘的任何电子元件(除了HDA内的前置放大器)及信号处理来获取正确的用户数据的过程。
ActionFront和ChannelScience共同工作,克服了许多挑战,取得了数据恢复历史上的这一里程碑。其中一个特别重要的进步是由ActionFront的研究人员进行的对解扰,RLL解码及ECC纠错的破解。这是一种基于对同型号硬盘的反向工程。这些专门技术包括对信道参数,伺服层和数据层的检测必须在进行数据恢复之前针对同型号硬盘进行破解。这是由于不依赖硬盘的数据恢复不能从硬盘生长商那里获取这些必须的信息。
为了数据恢复产业提供更多的文档,ActionFront同意发布关于SignalTrace(TM)技术的这一白皮书。
硬盘还在发展当中,正在变的更复杂,更多的采用校准和超级调谐(hyper-tune)。对于硬件失败的数据恢复,不依赖硬盘的数据恢复技术如SignalTrace(TM)技术必须加快商业化。并且,这种技术必须可以适用大多数硬盘型号和兼容新出现的硬盘型号。不依赖硬盘的数据恢复最大的好处是可以从被故意损坏的磁碟上恢复数据。这对于法律部门和反恐专家来说具有特别的意义。
8.结论
被发送到数据恢复公司的硬件损坏的大多数硬盘是使用过多年的。其中部分可以使用传统的部件代换方法恢复,另外的就永远不可恢复了。这是由于硬盘使用了超级调谐技术以获取较高的数据密度,存储在表中的硬盘参数会由于系统区损坏而丢失。对这类硬盘需要获取精确的磁头,磁碟和系统参数。由于数据密度的持续高速增长,使得可以通过部件代换来恢复数据的硬盘变的越来越少。
我们需要一种不依赖硬盘的数据恢复技术来重新针对代换的磁头,磁碟,电子部件和固件及参数来进行优化。这需要重新编写硬盘优化程序,模仿硬盘自身的寻道方法。各种硬盘之间存在巨大的差异即使是同一型号的硬盘。要创造一种有效的,灵活的数据恢复方法,需要大量的实践工作和持续的研发。http://www.shannon.net.cn
因此,要从最新的硬盘上恢复数据只有最顶尖的数据恢复公司可以做到。硬盘生产商可以为数据恢复公司提供帮助,如提供使代换部件运转良好的载入和运行优化程序的特别命令。不过,看上去硬盘生产商不会提供这一帮助,因为他们主要致力于提高数据密度。
ActionFront数据恢复实验室是第一个也是唯一一个公开展示不依赖硬盘的数据恢复技术SignalTrace(TM)的公司。ChannelScience提供了部分协助。SignalTrace(TM)技术展示了恢复使用传统方法不能恢复的数据的方法。我们的目标是使这种技术商业化,以使得硬盘的最终用户包括大公司和政府部门受益。
关于作者
Charles Sobey已经在数据检测和数据存储领域工作了20年。他的研究项目包括军用通信系统,医学图像处理系统,磁头设计和生产,和检测方法的建模及改进如数据存储设备的PRML(partial-response maximum likelihood,部分相似最大响应)读信道。他是IEEE的高级会员,也是世界上第三大IEEE分会Dallas Texas通信和媒介技术协会的理事会员。
Chukc是ChannelScience的首席科学家和PRMLpro(TM)一个模拟检测磁碟,磁道和光数据存储设备的信号处理过程的商业软件工具的创造者。他的研究兴趣包括基于纳米的数据存储方法,将硬盘驱动器集成到非传统应用中,生化监测,和事关国家安全的生物化学战探测器。
他们最喜欢的挑战是帮助硬盘公司发展新技术。Chuck也协助硬盘公司评估新技术以决定是否投资。他还协助大、小及新兴的公司推广技术。
Chuck拥有五项美国专利,公开发表了多篇文章和论文。他还通过KnowledgeTek Inc参与了世界许多数据存储方面的讨论会。他的议题包括硬盘技术,伺服定位,PRML检测,纠错编码(ECC)和迭代检测。可以从www.ChannelScience.com下载PRMLpro(TM)30天的的试用版本。
香农青岛数据恢复中心 翻译
2005/6/7