パッケージ技術の強化に余念がないインテル
インテルはファウンダリービジネスを再開するにあたり、単に前工程だけでなく後工程のうち、パッケージ技術に関しても差別化要因が必要になっている。先に618回でAMDの3D V-Cacheに絡めてTSMCのパッケージ技術について概要を説明したが、これに相当する技術をインテルも用意してきた格好だ。
そもそも昨今では、特にCoWoSのあたりから前工程と後工程の境があいまいになりつつある。もともとの定義で言えば以下の(1)~(4)が前工程、(5)~(7)が後工程という話だった。
(1) ウェハーの表面酸化
(2) 薄膜加工
(3) 配線パターニング
(4) 電極形成
(5) ダイシング(ウェハーからチップを切り出し)
(6) パッケージング(パッケージにダイを搭載して配線する)
(7) テスト
ところが、CoWoSの場合は配線材料そのものもウェハーを使い、しかも配線密度が従来よりはるかに高くなった関係で、後工程工場の従来の実装設備では精度が足りず、それもあって当初は後工程工場に新規の設備を入れたり、一部作業を前工程工場に戻したりという騒ぎになったらしい。
昨今では後工程工場もCoWoSのような2.5Dインターポーザーについては対応できるようになったが、TSMCで言えばInFOやSoICに関しては後工程工場に任せずにTSMC自身でパッケージングまでを済ませる方向にシフトしつつあり、その意味では前工程・後工程の境目が怪しくなってきている。インテルも当然こうしたことに対応して、自社のパッケージ技術の強化に余念がないわけだ。
配線方法に違いがあるEMIBとCoWoS
さてまずはEMIB(Embedded Multi-Die Interconnect Bridge)について。標準パッケージと比べて配線密度を2倍に、伝送効率を4倍にできるというものであるが、ではTSMCのCoWoS(Chip on Wafer on Substrate)と何が違うのか? という話をまず説明しよう。
下図が、これは何度も出てきたCoWoSである。CPUやGPUのダイは、まずダイと同じ材質の(つまり半導体の前工程を使って製造された)インターポーザーに、Microbumpと呼ばれる微小な半田ボールで接続される。このダイとインターポーザーの間のMicrobumpは、初期のCoWoSの場合で直径20μmほどである。
インターポーザー内には配線が通っており、Die 1とDie 2をつなぐだけであればここで用事が済む。一方で外部に配線を出す場合には、インターポーザーの下にもMicrobumpが用意される。こちらのMicrobumpは直径80μmほどである。電源ピンや外部信号は、このMicrobump経由でパッケージに接続され、最終的にパッケージ底面のBump(こちらは直径250μm程度)で接続される。
ちなみに電源配線などの場合、インターポーザー内で配線を引き回すと抵抗が増えて焼けてしまう可能性がある。そこでこうした外部との配線に関しては、インターポーザー内にTSV(垂直貫通電極)を設け、パッケージの上面からダイの底面までまっすぐ接続されるようになっている。
これに対してインテルの提供するEMIBは下図のようになっている。つまりパッケージにインターポーザーが埋め込まれる形だ。このインターポーザーはダイ間の通信にのみ利用され、外部に出す信号や電源などはパッケージから直接ダイにつながる形になる。
実はこのEMIB、第1世代はいろいろ制約があった。最大のものは「HBMがそのまま接続できない」ということだろうか。HBM(High Bandwidth Memory)はあの狭いパッケージに3000本以上のピンがあるため、底面は下図のような形でMicrobumpが配されている(Microbumpの直径そのものは25μm)。
EMIBでもギリギリ直接接続できそうな気もするのだが駄目だったそうで、なので例えば2017年に出たStratix 10 MXの場合、HBMを一旦シリコンインターポーザーに乗せ、これをEMIBでつなぐという不思議な構造だったらしい。ただそのEMIBも改良が進んでおり、実際Ponte VecchioはHBM2eをEMIBだけで接続できるようになっているし、EMIBそのもののBump Pitchもどんどん小さくなったとされる。
3D積層技術Foverosの構造はInFOに酷似
次がFoverosだ。現時点もでインテルはFoverosの詳細を公開していないため、正確なところは藪の中のままであるのだが、基本的にはTSMCのInFOにかなり近いものと思われる。InFOの構造は連載618回で紹介したが、要するに積層するチップの底面にインターポーザー(TSMCはRDL:Re-Distribution Layerと称している)を挟み、このインターポーザー同士をViaで接続するという仕組みである。
この仕組みなら、3層以上の積層もそう難しくない。実際Lakefieldの場合、DRAM、Compute Tile、Base Tile(PCH)という3層構造になっている。
この説明の図版ではあたかもCompute TileとBase Tileが直接つながっているように見えるが、実際には下図のような構成だとすれば無理なく積層可能なのは納得である。
さてこのFoverosは現時点ではまだ第1世代であるが、間もなく第2世代のFoverosが投入されるとともに、新たにFoveros Omni/Foveros Directと呼ばれる技術が発表された。
まず第2世代Foverosだが、Bump Pitchを36μmまで縮めるとともに最大125Wまでの熱環境に対応できる、とされた。
ちなみにEMIBとの併用も可能で、それもあってPonte VecchioはHBM2eはEMIB経由だが、それ以外のコンポーネントは第2世代Foverosを利用して構築される、としている。
Foverosの新技術となるFoveros Omni
さて次がFoveros Omniであるが、これは「2つのチップ」を高効率に積層するための技術である。簡単におさらいすると、下図が昨今のチップの作り方である。
Flip-Chipと呼ばれることもあるが、要するにダイのすぐ裏にトランジスタの回路層があり、その下に配線層がある形だ。この結果として、2つのチップをそのまま貼り合わせることはできない。
どうしてもやりたければ、回路層の裏のシリコンを貫通するようにTSVを構築して、配線層を裏側まで引っ張らないといけないのだが、当然これはコストがかかるし、そのTSVがある部分には回路を入れられないためダイサイズ的にも効率がよろしくない。AMDの3D V-Cacheの模式図で、中央にTSVを集中的に配しているのは、ダイ全体にTSVを設けるのは面積的に不利だから、という非常に現実的な理由である。
ただ、2チップに限って言えば、下図のような方法が取れる。配線層同士が向かい合うように、Base dieを上下反転させれば、配線長を最短にできることになる。
Foveros Omniは、要するに下図のような構成になっていると思われる。
もちろんこれだけでは3チップ以上の積層は不可能だが、そうしたニーズは従来のFoverosと同じくチップの外側にViaを設け、これでインターポーザー同士を接続するようにすればよい。つまり2ダイづつ重ねる方法だ。
もう1つ、複数のチップを並行に並べながら向かい合わせにする方法も考えられる。発熱が多いチップの場合、あまり縦積みにすると放熱が非常に厳しいことになる。そうした場合、下図のように水平方向に展開する方が効果的かもしれない。
直接2つのダイを接続する Foveros Direct
このFoveros Omniを一歩進めたのがFoveros Directである。要するにインターポーザーも挟まずに、直接2つのダイを接続する方法だ。Microbumpすらないため、配線密度は非常に高くとれる。
ただしインターポーザーが入らないということは、仮に上と下のダイのサイズが完全に一緒だと、一切外部に信号が出せないことになる。したがって、製品として構築するためにはBase dieの方が小さくないといけない。つまり下図のような構成である。
このFoveros Directであるが、実はTSMCのSoICの中でチップの表面同士をつなげる方法(論文ではSoIC F2Fと表記されていた。Face-to-Face SoICの意味である)とまったく同じである。ということは、例えば大容量キャッシュを3D積層するといった用途には非常に向いていることになる。
この場合Top dieにプロセッサーが入り、Base dieにキャッシュを追い出す形になるが、それであればBase dieの方がダイサイズが小さいのは普通だし、キャッシュなら発熱が少ないから放熱にも問題が出にくい。
まだインテルはFoveros Directの用途を明確にしていないが、大容量LLCの実装オプションとして使うことはできそうだ。少なくとも、AMDの3D-VCacheに近い(≠同じ)構成を作ることはできるだろう。同じでない、というのはこちら(https://ascii.jp/elem/000/004/057/4057940/3/)で紹介したようにV-Cacheは1~4スタックまで作り分けられるが、Foveros Directでは1スタックしか実現できないからだ。
ちなみにIntel Foundry Serviceの最初の顧客の1つとして、Amazonがこのパッケージング技術を利用すると明らかにした。おそらくチップそのものはAmazonの子会社であるAnnapurna Labsが開発するArm Neoverseベースの製品で、前工程はインテル以外の可能性があるが、それをインテルの後工程ファブに持ち込んでパッケージングすることを想定していると思われる。
ついでに言えば前回紹介したIntel 20Aの最初の顧客としてQualcommが名乗りを上げているが、同社はもともと複数のファブを使う(TSMCとSamsungの両方を現在も使っている)ことを考えると、これは不思議ではない。別にIntel 20A「だけ」を使う、とは言っておらず、おそらくTSMCやSamsungの2nm世代もやはり同時に利用するだろうし、Qualcommはそうした開発コストを支払えるだけの体力がある。
Auroraの納期遅れに対する罰金は3億ドル
最後に前回の補足を。Auroraの納入が間に合わないことに触れたが、これに関しておもしろい言及がその2日前のEarnings Conferenceの中であった(こちらはhttps://edge.media-server.com/mmc/p/zamhm4tgから視聴できる)。
まずインテルCFOのGeorge Davis氏が説明の最後で「DCGについては、E&Gおよびクラウドの回復にともない、下半期の収益は上半期を大幅に上回り、通期の収益は前年同期比で若干減少する程度と予想している。その結果、DCGは第3四半期、第4四半期共に前年同期比で増加に転じると予想している。ただし下半期の売上総利益率は、主に7nmファブの立ち上げ、顧客への供給状況の悪化、および第4四半期に連邦政府向けビジネスに関連する一時的な費用により、低下すると予想される。第4四半期の売上総利益率は第3四半期とほぼ同水準になると思われる」と言及した。
この「連邦政府向けビジネスに関連する一時的な費用」とは何だ? と当然アナリストから突っ込みが入っており、「詳細は省くがこれはHPC向けに関するものだ」という説明があった。ちなみにこの費用は3億ドルほどとされる。
Auroraの契約は総額5億ドルほどとされており、Auroraを予定通りに納入できなかったペナルティが3億ドルの罰金と考えれば良いかと思う。この返事に続き、ゲルシンガーCEOが「第4四半期に一時的な費用が発生するが、この事業は当社にとって長期的に素晴らしい事業であり、技術的にも市場的にもビジネス的にも多くの利益をもたらしてくれるものと考えている」と、あまりフォローになっていないフォローをしているあたりからもお察しである。Auroraの遅延はゲルシンガーCEOの責任ではないが、インテルにとってはまた大きな自責点をHPC市場で喰らった形だと言えよう。