近日传某FAB数万片晶圆报废,科普一下相关知识,流水线SPC
1. 据报导,人为因素导致严重生产事故,数万片晶圆因管理疏忽报废。事情发生在合肥,之前就在传,现在应该可以说了。损失肯定有几亿,还影响交货,“关键产品的交付时间被迫延迟,对公司的市场信誉造成不可估量的损害。”
2. 晶圆加工的工序有很多道。FAB将一片硅晶圆从光板,到加工成“裸芯片”(die),出厂送去封装,时间还挺长的。复杂的2-3个月很正常,而且生产线上多种芯片混着用机台,有的半年才加工完都可能。工序可能有几百道、上千道。
3. 一种绝对错误的理解是,晶圆从这头送进“光刻机”,那头出来的就是芯片。光刻机是工具之一,有上百种机器,也有几个精度或高或低的光刻机配合着用。真正对晶圆动手脚的是“刻蚀机”,用药水或物理冲击在硅原子平原上挖沟槽。光刻机配合刻蚀,告诉它在哪挖沟,凡刻蚀必光刻。还要“薄膜沉积”出金属层,要往里面“离子注入”做PN结,还要抛光、清洗。每种处理都要很多遍,几百道工序常见。
4. 好处是可以并行。一片晶圆上几百个到上万个芯片,药水全部淹没。光刻机特别厉害,1分钟快速扫描完一片晶圆,每个芯片只有0.1秒曝光时间,就快速移动到下个位置。一大批晶圆会一起进机器,如一炉子加热一堆。还有多条产线一起跑,都是并行生产提速。并行让芯片产量非常高,一年上万亿个,才能工艺复杂却不是太贵。
5. 一种理解说,良率是多道工序相乘,每道工序要极为可靠。500道工序每道99.99%最终才有95%的良率,99.98%最终良率就只有90%了。这种理解不太符合现实,似乎晶圆就是闷头经过一道道工序,赌博一样,跑完了最后测试结果。
6. 实际上,每道工序都要监控,把晶圆和机器的多种指标统计得极为详细,有好几千个指标。观察这些指标,如果符合“经验曲线”,就正常继续往前跑。指标出问题,就要把技术人员召集过来开会,给出猜想验证,解决问题再往前跑。不可能出问题了,还闷头往前冲。这叫流水线SPC(Statistical Process Control),每个指标有个不停波动的Chart,几千个Chart,晶圆和机台都有,哪个不对劲就开会。所以在FAB工作很苦,得盯着,出事要能及时解决问题,只有东亚人能干好。
7. 估计这个厂的SPC没弄好,开始一批(如几十片)指标不对劲了还没发现,闷头往前冲,几万片都用错误的办法加工了。最后发现时没救了,已经挖废了修不回来,只有全部报废。这非常需要经验和责任心,不对劲立刻开会。由于指标很复杂,有时人会侥幸和懈怠,我负责的指标恶化不多,人累,不管了。误差积累,最后就没救了。估计英特尔在美国生产芯片,面对这类问题更多,管不好,没救了。