intel
diff --git a/‎src/ProcessGroupCCL.cpp
+10-4 b/‎src/ProcessGroupCCL.cpp
+10-4
diff --git a/‎src/cpu/cpu_ccl.cpp
+108 b/‎src/cpu/cpu_ccl.cpp
+108
diff --git a/‎src/dispatch_stub.cpp
+32 b/‎src/dispatch_stub.cpp
+32
diff --git a/‎src/dispatch_stub.h
+12 b/‎src/dispatch_stub.h
+12
diff --git a/‎src/gpu/dpcpp_ccl.cpp
+116 b/‎src/gpu/dpcpp_ccl.cpp
+116
@@ -869,11 +869,17 @@ c10::intrusive_ptr<C10D_Work> ProcessGroupCCL::scatter(
 }
 
 c10::intrusive_ptr<C10D_Work> ProcessGroupCCL::reduce_scatter(
-    std::vector<at::Tensor>& /* unused */,
-    std::vector<std::vector<at::Tensor>>& /* unused */,
-    const ReduceScatterOptions& /* unused */)
+    std::vector<at::Tensor>& outputTensors,
+    std::vector<std::vector<at::Tensor>>& inputTensors,
+    const ReduceScatterOptions& opts)
 {
-  TORCH_CHECK(false, "ProcessGroupCCL does not support reduce_scatter");
+  std::vector<c10::IValue> tensor_param;
+  format_tensors_param(tensor_param, inputTensors);
+  format_tensors_param(tensor_param, outputTensors);
+  RECORD_FUNCTION("oneccl_bindings_for_pytorch::reduce_scatter", tensor_param);
+
+  auto work = DispatchStub::reduce_scatter(outputTensors, inputTensors, opts, *this);
+  return work;
 }
 
 c10::intrusive_ptr<C10D_Work> ProcessGroupCCL::_reduce_scatter_base(
 
@@ -138,6 +138,11 @@ class VanillaCPU final: public DispatchStub {
                                                          const ReduceOptions& opts,
                                                          ProcessGroupCCL& pg) override;
 
+  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> reduce_scatter_(std::vector<at::Tensor>& outputTensors,
+                                                                    std::vector<std::vector<at::Tensor>>& inputTensors,
+                                                                    const ReduceScatterOptions& opts,
+                                                                    ProcessGroupCCL& pg_ccl) override;
+
   c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> _reduce_scatter_base_(at::Tensor& outputTensor,
                                                                           at::Tensor& inputTensor,
                                                                           const ReduceScatterOptions& opts,
@@ -194,6 +199,11 @@ class VanillaCPU final: public DispatchStub {
   std::condition_variable queueProduceCV_;
   std::condition_variable queueConsumeCV_;
 
+  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> _reduce_oop(at::Tensor& outputTensor,
+                                                         at::Tensor& inputTensor,
+                                                         const ReduceOptions& opts,
+                                                         ProcessGroupCCL& pg_ccl);
+
 };
 
 struct RegisterCPUPMethods {
@@ -388,6 +398,45 @@ c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> VanillaCPU::reduce_(std::vecto
   return work;
 }
 
+// _reduce_oop implements an out-of-place reduce procedure.
+c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> VanillaCPU::_reduce_oop(at::Tensor& outputTensor,
+                                                        at::Tensor& inputTensor,
+                                                        const ReduceOptions& opts,
+                                                        ProcessGroupCCL& pg_ccl) {
+  const int root = opts.rootRank + opts.rootTensor;
+  std::vector<at::Tensor> inputTensors{inputTensor};
+  std::vector<at::Tensor> outputTensors{outputTensor};
+  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> work;
+  work = collective<get_ccl_comms, CPUWorkCCL>(
+    pg_ccl,
+    inputTensors,
+    outputTensors,
+    [=](at::Tensor input,
+        at::Tensor output,
+        ccl::reduce_attr attr,
+        ccl::communicator& comm) {
+
+      ccl::event ret_evt;
+      call_with_lock(c10d::ProcessGroupCCL::globalMutex, [&]() {
+        CCL_CHECK(ret_evt = ccl::reduce(input.data_ptr(),
+                                output.data_ptr(),
+                                (size_t) input.numel(),
+                                cclDatatypes.at(input.scalar_type()),
+                                cclOps.at(opts.reduceOp),
+                                root,
+                                comm));
+      });
+      return ret_evt;
+
+  },
+    c10d::OpType::REDUCE,
+    "oneccl_bindings_for_pytorch::cpu_work::_reduce_oop");
+
+  work->debugName = std::string("cpu::_reduce_oop");
+  enqueue(work);
+  return work;
+}
+
 c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> VanillaCPU::broadcast_(std::vector<at::Tensor>& tensors,
                                                                       const BroadcastOptions &opts,
                                                                       ProcessGroupCCL& pg) {
@@ -596,6 +645,65 @@ c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> VanillaCPU::gather_(std::vecto
   return work;
 }
 
+c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> VanillaCPU::reduce_scatter_(std::vector<at::Tensor>& outputTensors,
+                                                                std::vector<std::vector<at::Tensor>>& inputTensors,
+                                                                const ReduceScatterOptions& opts,
+                                                                ProcessGroupCCL& pg_ccl) {
+  checkSingleTensor(outputTensors);
+  auto outputTensor = outputTensors.back();
+  auto inputTensors_ = inputTensors.back();
+  bool same_size = check_same_size(inputTensors_);
+  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> work;
+  if (same_size) {
+    auto inputFlattened = newLikeFlat(inputTensors_);
+    for (const auto j : c10::irange(inputTensors_.size())) {
+        inputFlattened[j].copy_(inputTensors_[j], true);
+    }
+    std::vector<at::Tensor> flattendInputTensors{inputFlattened};
+    work = collective<get_ccl_comms, CPUWorkCCL>(
+            pg_ccl,
+            flattendInputTensors,
+            outputTensors,
+            [=](at::Tensor input,
+                at::Tensor output,
+                ccl::reduce_attr attr,
+                ccl::communicator& comm) {
+                
+                ccl::event ret_evt;
+                call_with_lock(c10d::ProcessGroupCCL::globalMutex, [&]() {
+                CCL_CHECK(ret_evt = ccl::reduce_scatter(input.data_ptr(),
+                                                        output.data_ptr(),
+                                                        (size_t) output.numel(),
+                                                        cclDatatypes.at(input.scalar_type()),
+                                                        cclOps.at(opts.reduceOp),
+                                                        comm));
+                });
+                return ret_evt;
+
+            },
+            c10d::OpType::REDUCE_SCATTER,
+            "oneccl_bindings_for_pytorch::cpu_work::reduce_scatter");
+    work->debugName = std::string("cpu::reduce_scatter");
+    enqueue(work);
+    return work;
+
+  } else {
+    // Use multiple reduce to simulate reduce_scatter.
+    const auto num_reduces = inputTensors_.size();
+    for (const int i : c10::irange(num_reduces)) {
+      auto& input = inputTensors_[i];
+      auto& output = (i == pg_ccl.getRank()) ? outputTensor : input;
+      auto reduceOpts = ReduceOptions{
+          opts.reduceOp,
+          static_cast<int64_t>(i),
+          static_cast<int64_t>(0),
+          opts.timeout};
+      work = _reduce_oop(output, input, reduceOpts, pg_ccl);
+    }
+    return work;
+  }
+}
+
 c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> VanillaCPU::scatter_(std::vector<at::Tensor>& outputTensors,
                                                                     std::vector<std::vector<at::Tensor>>& inputTensors,
                                                                     const ScatterOptions& opts,
 
@@ -161,6 +161,30 @@ class DebugCCLStub final: public DispatchStub {
     return work;
   }
 
+  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> reduce_scatter_(std::vector<at::Tensor>& outputTensors,
+                                                                          std::vector<std::vector<at::Tensor>>& inputTensors,
+                                                                          const ReduceScatterOptions& opts,
+                                                                          ProcessGroupCCL& pg_ccl) override {
+    std::stringstream os;
+    os << "oneccl_bindings_for_pytorch::" << dev_type << "::reduce_scatter: ";
+    format_pg_rank_with_number(os, pg_ccl, ccl_primitive_number++);
+    os << " input ";
+    format_tensors_size(os, inputTensors);
+    os << " output ";
+    format_tensors_size(os, outputTensors);
+    std::cout << os.str() << std::endl;
+
+    auto workStartTime_ = std::chrono::steady_clock::now();
+    auto work = hdlr->reduce_scatter_(outputTensors, inputTensors, opts, pg_ccl);
+    auto currentTimepoint = std::chrono::steady_clock::now();
+    auto timeElapsed =
+      std::chrono::duration_cast<std::chrono::microseconds>(
+        currentTimepoint - workStartTime_);
+    format_time_elapsed(os, timeElapsed);
+    std::cout << os.str() << std::endl;
+    return work;
+  }
+
   c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> _reduce_scatter_base_(at::Tensor& outputTensor,
                                                                           at::Tensor& inputTensor,
                                                                           const ReduceScatterOptions& opts,
@@ -609,6 +633,14 @@ c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> DispatchStub::scatter(std::vec
   return get_ccl_stub(dev_type)->scatter_(outputTensors, inputTensors, opts, pg_ccl);
 }
 
+c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> DispatchStub::reduce_scatter(std::vector<at::Tensor>& outputTensors,
+                                                                std::vector<std::vector<at::Tensor>>& inputTensors,
+                                                                const ReduceScatterOptions& opts,
+                                                                ProcessGroupCCL& pg_ccl) {
+  c10::DeviceType dev_type = outputTensors[0].device().type();
+  return get_ccl_stub(dev_type)->reduce_scatter_(outputTensors, inputTensors, opts, pg_ccl);
+}
+
 c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> DispatchStub::_reduce_scatter_base(at::Tensor& outputTensor,
                                                                 at::Tensor& inputTensor,
                                                                 const ReduceScatterOptions& opts,
 
@@ -95,6 +95,10 @@ class DispatchStub {
                                                                   const ReduceScatterOptions& opts,
                                                                   ProcessGroupCCL& pg_ccl);
 
+  static c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> reduce_scatter(std::vector<at::Tensor>& outputTensors,
+                                                                  std::vector<std::vector<at::Tensor>>& inputTensors,
+                                                                  const ReduceScatterOptions& opts,
+                                                                  ProcessGroupCCL& pg_ccl);
   static c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> reduce_scatter_tensor_coalesced(
                                                                 std::vector<at::Tensor>& outputTensors,
                                                                 std::vector<at::Tensor>& inputTensors,
@@ -187,6 +191,14 @@ class DispatchStub {
     fail(outputTensors[0].device().type(), "scatter");
     return c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL>();
   }
+
+  virtual c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> reduce_scatter_(std::vector<at::Tensor>& outputTensors,
+                                                                    std::vector<std::vector<at::Tensor>>& inputTensors,
+                                                                    const ReduceScatterOptions& opts,
+                                                                    ProcessGroupCCL& pg_ccl) {
+    fail(outputTensors[0].device().type(), "reduce_scatter");
+    return c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL>();
+  }
 
   virtual c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> _reduce_scatter_base_(at::Tensor& outputTensor,
                                                                     at::Tensor& inputTensor,
 
@@ -546,6 +546,11 @@ class XPUCCLStubs final: public DispatchStub {
                                                          const ReduceOptions& opts,
                                                          ProcessGroupCCL& pg_ccl) override;
 
+  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> reduce_scatter_(std::vector<at::Tensor>& outputTensors,
+                                                                          std::vector<std::vector<at::Tensor>>& inputTensors,
+                                                                          const ReduceScatterOptions& opts,
+                                                                          ProcessGroupCCL& pg_ccl) override;
+
   c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> _reduce_scatter_base_(at::Tensor& outputTensor,
                                                                           at::Tensor& inputTensor,
                                                                           const ReduceScatterOptions& opts,
@@ -629,6 +634,10 @@ class XPUCCLStubs final: public DispatchStub {
   c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> allreduce_impl(std::vector<at::Tensor>& tensors,
                                                             const AllreduceOptions& opts,
                                                             ProcessGroupCCL& pg_ccl);
+  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> _reduce_oop(at::Tensor& outputTensor,
+                                                         at::Tensor& inputTensor,
+                                                         const ReduceOptions& opts,
+                                                         ProcessGroupCCL& pg_ccl);
 };
 
 struct RegisterXPUMethods {
@@ -837,6 +846,113 @@ c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> XPUCCLStubs::reduce_(std::vect
   return work;
 }
 
+// _reduce_oop implements an out-of-place reduce procedure.
+c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> XPUCCLStubs::_reduce_oop(at::Tensor& outputTensor,
+                                                        at::Tensor& inputTensor,
+                                                        const ReduceOptions& opts,
+                                                        ProcessGroupCCL& pg_ccl) {
+  const int root = opts.rootRank + opts.rootTensor;
+  std::vector<at::Tensor> inputTensors{inputTensor};
+  std::vector<at::Tensor> outputTensors{outputTensor};
+  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> work;
+  work = collective<get_ccl_comms, XPUWorkCCL>(
+    pg_ccl,
+    inputTensors,
+    outputTensors,
+    [=](at::Tensor input,
+        at::Tensor output,
+        ccl::reduce_attr attr,
+        ccl::communicator& comm,
+        ccl::stream& stream) {
+      RECORD_FUNCTION("oneccl_bindings_for_pytorch::xpu::reduce_oop", std::vector<c10::IValue>{input});
+
+      ccl::event ret_evt;
+      call_with_lock(c10d::ProcessGroupCCL::globalMutex, [&]() {
+        CCL_CHECK(ret_evt = ccl::reduce(input.data_ptr(),
+                                output.data_ptr(),
+                                (size_t) input.numel(),
+                                cclDatatypes.at(input.scalar_type()),
+                                cclOps.at(opts.reduceOp),
+                                root,
+                                comm,
+                                stream));
+      });
+      return ret_evt;
+
+  },
+    c10d::OpType::REDUCE);
+
+  work->debugName = std::string("xpu::_reduce_oop");
+  execute(work);
+
+  return work;
+}
+
+c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> XPUCCLStubs::reduce_scatter_(std::vector<at::Tensor>& outputTensors,
+                                                                        std::vector<std::vector<at::Tensor>>& inputTensors,
+                                                                        const ReduceScatterOptions& opts,
+                                                                        ProcessGroupCCL& pg_ccl) {
+  checkSingleTensor(outputTensors);
+  auto outputTensor = outputTensors.back();
+  auto inputTensors_ = inputTensors.back();
+  bool same_size = check_same_size(inputTensors_);
+  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> work;
+  if (same_size) {
+    auto inputFlattened = newLikeFlat(inputTensors_);
+    for (const auto j : c10::irange(inputTensors_.size())) {
+        inputFlattened[j].copy_(inputTensors_[j], true);
+    }
+    std::vector<at::Tensor> flattendInputTensors{inputFlattened};
+
+    work = collective<get_ccl_comms, XPUWorkCCL>(
+            pg_ccl,
+            flattendInputTensors,
+            outputTensors,
+            [=](at::Tensor input,
+                at::Tensor output,
+                ccl::reduce_attr attr,
+                ccl::communicator& comm,
+                ccl::stream& stream) {
+                RECORD_FUNCTION("oneccl_bindings_for_pytorch::xpu::reduce_scatter", std::vector<c10::IValue>{input});
+
+                ccl::event ret_evt;
+                call_with_lock(c10d::ProcessGroupCCL::globalMutex, [&]() {
+                CCL_CHECK(ret_evt = ccl::reduce_scatter(input.data_ptr(),
+                                                        output.data_ptr(),
+                                                        (size_t) output.numel(),
+                                                        cclDatatypes.at(input.scalar_type()),
+                                                        cclOps.at(opts.reduceOp),
+                                                        comm,
+                                                        stream));
+                });
+                return ret_evt;
+
+            },
+            c10d::OpType::REDUCE_SCATTER);
+
+    work->debugName = std::string("xpu::reduce_scatter");
+    execute(work);
+    return work;
+  } else {
+    // Use multiple reduce to simulate reduce_scatter.
+    // Currently one-ccl doest support grouped primitives, we'll add coalescing when it supports.
+    // todo: startCoalescing
+    const auto num_reduces = inputTensors_.size();
+    for (const int i : c10::irange(num_reduces)) {
+      auto& input = inputTensors_[i];
+      auto& output = (i == pg_ccl.getRank()) ? outputTensor : input;
+      auto reduceOpts = ReduceOptions{
+          opts.reduceOp,
+          static_cast<int64_t>(i),
+          static_cast<int64_t>(0),
+          opts.timeout};
+      work = _reduce_oop(output, input, reduceOpts, pg_ccl);
+    }
+    // todo: endCoalescing
+    return work;
+  }
+}
+
 c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> XPUCCLStubs::_reduce_scatter_base_(at::Tensor& outputTensor,
                                                                         at::Tensor& inputTensor,
                                                                         const ReduceScatterOptions& opts,