yuer-cn

yuer-cn

Achievements

ideal-waddle ideal-waddle Public
mlu-ops mlu-ops Public

Forked from Cambricon/mlu-ops

Efficient operation implementation based on the Cambricon Machine Learning Unit (MLU) .

C++
mlu-ops-proto-yr mlu-ops-proto-yr Public

Forked from Cambricon/mlu-ops-proto

Test_case Generator for mlu-ops (https://github.com/Cambricon/mlu-ops).

Shell
professional-cuda-c-programming professional-cuda-c-programming Public

Forked from deeperlearning/professional-cuda-c-programming

Cuda
cub cub Public

Forked from NVIDIA/cub

[ARCHIVED] Cooperative primitives for CUDA C++. See https://github.com/NVIDIA/cccl

Cuda
mojo_opset mojo_opset Public

Forked from XPU-Forces/mojo_opset

Mojo Opset is a collection of different high-performance kernel implementations for LLM and multimodal.

Python