大規模分散環境における推論AIのスケーリングを目的に、Red Hatがパートナーとローンチしたオープンソースプロジェクトllm-dは、vLLMとKubernetesをベースにしている。ルーティング機能としてKubernetesのGateway APIを機能拡張したInference Gatewayを採用し、推論処理の能力に応じてスケーリングする

大規模分散環境における推論AIのスケーリングを目的に、Red Hatがパートナーとローンチしたオープンソースプロジェクトllm-dは、vLLMとKubernetesをベースにしている。ルーティング機能としてKubernetesのGateway APIを機能拡張したInference Gatewayを採用し、推論処理の能力に応じてスケーリングする