
在晶圆厂里有一种问题最让工程师无奈。它不是每天都发生也不是完全不能生产。它偶尔出现一次影响一下良率或者让某个参数突然漂一下。大家紧张几天查数据、开会议、做实验、写报告最后问题又消失了。过一段时间它又来了。更痛苦的是这个问题可能不是今天才有。从研发阶段就有量产初期就有换了一批又一批工程师开了一轮又一轮会议做了一版又一版改善它还是在那里。不能说完全没改善但也不能说百分之百解决。最后它变成了一种很尴尬的存在能凑合做能通过控制手段把风险压下去但就是找不到一个干净利落的根因。这就是晶圆厂里很多工艺问题最真实的样子。外行可能会觉得奇怪半导体制造这么精密为什么一个问题会查不清楚工程师不是应该找到root cause然后彻底close吗但真正做过量产的人都知道很多问题不是不想查而是它本来就不是一个简单问题。一、很多工艺问题从一开始就是“带病量产”理想情况下一个工艺从研发转量产应该是窗口清晰、机制明确、风险可控、问题闭环。但现实往往没有这么完美。研发阶段的目标是先把工艺跑通把产品做出来把关键指标做到客户要求以内。很多时候时间紧、项目急、客户等、产线也等。有些问题在研发阶段就已经存在只是发生频率不高影响范围不大或者通过某些条件限制可以压住。研发工程师当然也知道它不完美。但如果整体良率能接受客户节点要赶项目要推进产线要导入这些问题就可能被带进量产。它们不会立刻把项目打死但会在后面长期折磨量产团队。所以很多工艺问题不是量产后突然冒出来的而是从研发时就埋下了种子。只是研发阶段叫“待优化”量产阶段就变成了“异常”。二、工艺问题最难的地方是它往往不是单一原因很多人以为找根因就是找到一个坏掉的零件、一个错误的参数、一次错误的操作。如果真是这样工程师反而轻松。阀坏了换阀泵不稳修泵recipe错了改recipe药液浓度错了重新配温度超spec查温控sensor漂了校准或者更换。这种问题虽然麻烦但至少方向明确。真正难的是很多工艺问题不是一个原因造成的而是很多小因素叠加出来的。设备状态有一点点变化材料批次有一点点波动前道膜层有一点点差异产品图形密度有一点点敏感环境温湿度有一点点影响量测本身有一点点误差工艺窗口本来就有一点点窄。每一个因素单独看都没有明显超标。但几个因素碰到一起问题就出现了。这就像一扇门平时能关上但只要地面有一点点歪、门框有一点点变形、天气有一点点潮它就会偶尔卡住。你说根因是什么说门坏了不准确说地面歪了也不完整说天气潮了好像也不是每次都触发。晶圆厂里的很多问题就是这样。它不是单点失效而是系统边界被碰到了。这类问题最难找根因因为它的“根因”不是一个点而是一片区域。三、偶发问题最折磨人因为它不给你稳定线索工程师查问题最怕“偶发”。因为偶发问题最大的问题是复现不了。今天异常了明天正常这批lot有问题下一批又没事A机台出现一次B机台没出现白班正常夜班异常你不盯它它报警你盯着它它安静。这种问题最让工程师崩溃。因为只要不能稳定复现就很难验证假设。你怀疑是设备状态但停机检查又没发现明显异常你怀疑是材料批次但换了一批材料后也不是马上消失你怀疑是前道带入但前道数据看起来也在spec里你怀疑是操作差异但又找不到明确的人为偏差你怀疑是工艺窗口窄但改参数又可能影响其他指标。最后所有可能性都存在但没有一个证据足够硬。会议上大家会问根因到底是什么工程师只能说目前更倾向于某几个方向但还需要继续monitor。这句话听起来像敷衍。但很多时候这就是现实。不是工程师不想给结论而是数据不允许他把话说死。四、量产线不是实验室不能为了找根因无限试错还有一个很现实的问题量产线不是给你随便做实验的。在研发线上你可以做DOE可以大范围改参数可以停下来反复验证。但在量产线上产能要跑客户要货生产计划要执行设备不能随便占用产品不能随便冒险。很多工艺问题虽然存在但只要发生率不高影响可控工厂往往更倾向于先把风险压住而不是无限制追求理论上的彻底根因。五、历史问题最难因为前面的人已经试过很多路还有一种问题特别让人无力历史遗留问题。这个问题可能从产品导入时就存在。第一批工程师查过第二批工程师优化过第三批工程师接手后又做过改善设备换过recipe改过材料换过clean方式调过量测方法也确认过。但它还在。新来的工程师一开始很有激情觉得前人没解决是因为没有找到正确方向。然后他开始查数据、翻报告、做实验、开会、拉历史记录。查到最后发现自己想到的很多方案前人早就试过了。而且试完以后问题确实改善过但没有彻底消失。这时候工程师会慢慢明白有些问题不是没人努力而是它处在工艺、设备、材料、产品结构共同作用的灰区里。不是没有根因而是根因太分散不是没有改善而是改善很难做到百分之百不是没人负责而是它跨越了太多边界。这种问题最后往往会变成工厂里的“老毛病”。大家都知道它存在也知道怎么尽量避免它但很难一句话说清楚为什么它偶尔还会回来。