안녕하세요.


현재 LLM Inference 최적화 관련해서 연구하고 있는데 생각하고 있는게 요새 기성품(애플 m시리즈, 인텔 코어 울트라, 스냅드래곤 Elite X 등등..) 들에 SoC 형태로 CPU+NPU, CPU+GPU+NPU 같이 많이 출시를 하고 있는것으로 알고있습니다.


이와 관련해서 NPU를 활용한 LLM Inference 최적화를 생각해보는 중인데, NPU에서 Low-Level 언어를 활용한 프로그래밍이 가능해보이는 적절한 플랫폼을 찾기가 쉽지않네요...


인텔에서 관련해서 공개한 Direct ML을 이용해서 Transformer 모델 Inference관련글도 봤는데 이것도 High-Level에서 이미 만들어진 API를 통해서 만들어서 실질적인 연산 커널 최적화는 어려워보입니다.
(참고: https://devblogs.microsoft.com/directx/introducing-neural-processor-unit-npu-support-in-directml-developer-preview/)


그래서 지금 생각하고 있는건 아무래도 맥북에서 NPU활용한 프로그래밍을 생각해보고 있습니다. 실질적으로 가능할까요? 아니면 NPU 프로그래밍이 가능한 플랫폼을 아시는게 있다면 의견 구하고 싶습니다.


아무래도 이러한 부분에는 경험이 적다보니 의견 공유해주신다면 감사히 듣고싶습니다!


감사합니다.