Grid/dev/Grid__gpu__rrii_8h_source.html

    /*************************************************************************************


    Grid physics library, www.github.com/paboyle/Grid


    Source file: ./lib/simd/Grid_gpu.h


    Copyright (C) 2021


Author: Peter Boyle <paboyle@ph.ed.ac.uk>


    This program is free software; you can redistribute it and/or modify

    it under the terms of the GNU General Public License as published by

    the Free Software Foundation; either version 2 of the License, or

    (at your option) any later version.


    This program is distributed in the hope that it will be useful,

    but WITHOUT ANY WARRANTY; without even the implied warranty of

    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the

    GNU General Public License for more details.


    You should have received a copy of the GNU General Public License along

    with this program; if not, write to the Free Software Foundation, Inc.,

    51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.


    See the full license in the file "LICENSE" in the top level distribution directory

    *************************************************************************************/

    /*  END LEGAL */

//----------------------------------------------------------------------

//----------------------------------------------------------------------


// fp16

#ifdef GRID_CUDA

#include <cuda_fp16.h>

#endif

#ifdef GRID_HIP

#include <hip/hip_fp16.h>

#endif

#if !defined(GRID_HIP) && !defined(GRID_CUDA)

namespace Grid {

  typedef struct { uint16_t x;} half;

}

#endif

namespace Grid {


  accelerator_inline float half2float(half h)

  {

    float f;

#if defined(GRID_CUDA) || defined(GRID_HIP)

    f = __half2float(h);

#else

    Grid_half hh;

    hh.x = h.x;

    f=  sfw_half_to_float(hh);

#endif

    return f;

  }


  accelerator_inline half float2half(float f)

  {

    half h;

#if defined(GRID_CUDA) || defined(GRID_HIP)

    h = __float2half(f);

#else

    Grid_half hh = sfw_float_to_half(f);

    h.x = hh.x;

#endif

    return h;

  }


}


#define COALESCE_GRANULARITY ( GEN_SIMD_WIDTH )


namespace Grid {


// Real vector

template<int _N, class _datum>


struct GpuVector {

  _datum rrrr[_N];

  static const int N = _N;

  typedef _datum datum;

};


template<int N,class datum>


inline accelerator GpuVector<N,datum> operator*(const GpuVector<N,datum> l,const GpuVector<N,datum> r) {

  GpuVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.rrrr[i] = l.rrrr[i]*r.rrrr[i];

  }

  return ret;

}


template<int N,class datum>


inline accelerator GpuVector<N,datum> operator-(const GpuVector<N,datum> l,const GpuVector<N,datum> r) {

  GpuVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.rrrr[i] = l.rrrr[i]-r.rrrr[i];

  }

  return ret;

}


template<int N,class datum>


inline accelerator GpuVector<N,datum> operator+(const GpuVector<N,datum> l,const GpuVector<N,datum> r) {

  GpuVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.rrrr[i] = l.rrrr[i]+r.rrrr[i];

  }

  return ret;

}


template<int N,class datum>


inline accelerator GpuVector<N,datum> operator/(const GpuVector<N,datum> l,const GpuVector<N,datum> r) {

  GpuVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.rrrr[i] = l.rrrr[i]/r.rrrr[i];

  }

  return ret;

}


// Complex vector

template<int _N, class _datum>


struct GpuComplexVector {

  _datum rrrr[_N];

  _datum iiii[_N];

  static const int N = _N;

  typedef _datum datum;

};


template<int N,class datum>


inline accelerator GpuComplexVector<N,datum> operator*(const GpuComplexVector<N,datum> l,const GpuComplexVector<N,datum> r) {

  GpuComplexVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.rrrr[i] = l.rrrr[i]*r.rrrr[i] - l.iiii[i]*r.iiii[i];

    ret.iiii[i] = l.rrrr[i]*r.iiii[i] + l.iiii[i]*r.rrrr[i];

  }

  return ret;

}


template<int N,class datum>


inline accelerator GpuComplexVector<N,datum> operator-(const GpuComplexVector<N,datum> l,const GpuComplexVector<N,datum> r) {

  GpuComplexVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.rrrr[i] = l.rrrr[i]-r.rrrr[i];

    ret.iiii[i] = l.iiii[i]-r.iiii[i];

  }

  return ret;

}


template<int N,class datum>


inline accelerator GpuComplexVector<N,datum> operator+(const GpuComplexVector<N,datum> l,const GpuComplexVector<N,datum> r) {

  GpuComplexVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.rrrr[i] = l.rrrr[i]+r.rrrr[i];

    ret.iiii[i] = l.iiii[i]+r.iiii[i];

  }

  return ret;

}


template<int N,class datum>


inline accelerator GpuComplexVector<N,datum> operator/(const GpuComplexVector<N,datum> l,const GpuComplexVector<N,datum> r) {

  GpuComplexVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.rrrr[i] = l.rrrr[i]/r.rrrr[i];

    ret.iiii[i] = l.iiii[i]/r.iiii[i];

  }

  return ret;

}


// SIMD counts


constexpr int NSIMD_RealH    = COALESCE_GRANULARITY / sizeof(half);

constexpr int NSIMD_ComplexH = COALESCE_GRANULARITY / sizeof(half);

constexpr int NSIMD_RealF    = COALESCE_GRANULARITY / sizeof(float);

constexpr int NSIMD_ComplexF = COALESCE_GRANULARITY / sizeof(float);

constexpr int NSIMD_RealD    = COALESCE_GRANULARITY / sizeof(double);

constexpr int NSIMD_ComplexD = COALESCE_GRANULARITY / sizeof(double);

constexpr int NSIMD_Integer  = COALESCE_GRANULARITY / sizeof(Integer);


typedef GpuVector<NSIMD_RealH   , half        > GpuVectorRH;

typedef GpuComplexVector<NSIMD_ComplexH, half > GpuVectorCH;

typedef GpuVector<NSIMD_RealF,    float       > GpuVectorRF;

typedef GpuComplexVector<NSIMD_ComplexF, float> GpuVectorCF;

typedef GpuVector<NSIMD_RealD,    double      > GpuVectorRD;

typedef GpuComplexVector<NSIMD_ComplexD,double> GpuVectorCD;

typedef GpuVector<NSIMD_Integer,  Integer     > GpuVectorI;


namespace Optimization {


  struct Vsplat{

    //Complex float


    accelerator_inline GpuVectorCF operator()(float a, float b){

      GpuVectorCF ret;

      for(int i=0;i<GpuVectorCF::N;i++){

    ret.rrrr[i] = typename GpuVectorCF::datum(a);

    ret.iiii[i] = typename GpuVectorCF::datum(b);

      }

      return ret;

    }


    // Real float


    accelerator_inline GpuVectorRF operator()(float a){

      GpuVectorRF ret;

      for(int i=0;i<GpuVectorRF::N;i++){

    ret.rrrr[i] = typename GpuVectorRF::datum(a);

      }

      return ret;

    }


    //Complex double


    accelerator_inline GpuVectorCD operator()(double a, double b){

      GpuVectorCD ret;

      for(int i=0;i<GpuVectorCD::N;i++){

    ret.rrrr[i] = typename GpuVectorCD::datum(a);

    ret.iiii[i] = typename GpuVectorCD::datum(b);

      }

      return ret;

    }


    //Real double


    accelerator_inline GpuVectorRD operator()(double a){

      GpuVectorRD ret;

      for(int i=0;i<GpuVectorRD::N;i++){

    ret.rrrr[i] = typename GpuVectorRD::datum(a);

      }

      return ret;

    }


    //Integer


    accelerator_inline GpuVectorI operator()(Integer a){

      GpuVectorI ret;

      for(int i=0;i<GpuVectorI::N;i++){

    ret.rrrr[i] = typename GpuVectorI::datum(a);

      }

      return ret;

    }


  };


  struct Vstore{

    template<int N,class datum,class P>


    accelerator_inline void operator()(GpuVector<N,datum> a, P* Fp){

      GpuVector<N,datum> *vF = (GpuVector<N,datum> *)Fp;

      *vF = a;

    }


    template<int N,class datum,class P>


    accelerator_inline void operator()(GpuComplexVector<N,datum> a, P* Fp){

      GpuComplexVector<N,datum> *vF = (GpuComplexVector<N,datum> *)Fp;

      *vF = a;

    }


  };


  struct Vstream{

    template<int N,class datum, class P>


    accelerator_inline void operator()(P* F,GpuVector<N,datum> a){

      GpuVector<N,datum> *vF = (GpuVector<N,datum> *)F;

      *vF = a;

    }


    template<int N,class datum, class P>


    accelerator_inline void operator()(P* F,GpuComplexVector<N,datum> a){

      GpuComplexVector<N,datum> *vF = (GpuComplexVector<N,datum> *)F;

      *vF = a;

    }


  };


  struct Vset{

    // Complex float


    accelerator_inline GpuVectorCF operator()(Grid::ComplexF *a){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = vec::datum(a[i].real());

    ret.iiii[i] = vec::datum(a[i].imag());

      }

      return ret;

    }


    // Complex double


    accelerator_inline GpuVectorCD operator()(Grid::ComplexD *a){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = vec::datum(a[i].real());

    ret.iiii[i] = vec::datum(a[i].imag());

      }

      return ret;

    }


    // Real float


    accelerator_inline GpuVectorRF operator()(float *a){

      typedef GpuVectorRF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = vec::datum(a[i]);

      }

      return ret;

    }


    // Real double


    accelerator_inline GpuVectorRD operator()(double *a){

      typedef GpuVectorRD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = vec::datum(a[i]);

      }

      return ret;

    }


    // Integer


    accelerator_inline GpuVectorI operator()(Integer *a){

      typedef GpuVectorI vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = vec::datum(a[i]);

      }

      return ret;

    }


  };


  template <typename Out_type, typename In_type>


  struct Reduce{

    //Need templated class to overload output type

    //General form must generate error if compiled


    accelerator_inline Out_type operator()(In_type in){

      printf("Error, using wrong Reduce function\n");

      exit(1);

      return 0;

    }


  };


  // Arithmetic operations


  struct Sum{

    //Real float


    accelerator_inline GpuVectorRF operator()(GpuVectorRF a,GpuVectorRF b){

      return a+b;

    }


    accelerator_inline GpuVectorRD operator()(GpuVectorRD a,GpuVectorRD b){

      return a+b;

    }


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a,GpuVectorCF b){

      return a+b;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a,GpuVectorCD b){

      return a+b;

    }


    accelerator_inline GpuVectorI operator()(GpuVectorI a,GpuVectorI b){

      return a+b;

    }


  };


  struct Sub{


    accelerator_inline GpuVectorRF operator()(GpuVectorRF a,GpuVectorRF b){

      return a-b;

    }


    accelerator_inline GpuVectorRD operator()(GpuVectorRD a,GpuVectorRD b){

      return a-b;

    }


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a,GpuVectorCF b){

      return a-b;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a,GpuVectorCD b){

      return a-b;

    }


    accelerator_inline GpuVectorI operator()(GpuVectorI a,GpuVectorI b){

      return a-b;

    }


  };


  struct MultRealPart{


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a,GpuVectorCF b){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = a.rrrr[i]*b.rrrr[i];

    ret.iiii[i] = a.rrrr[i]*b.iiii[i];

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a,GpuVectorCD b){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = a.rrrr[i]*b.rrrr[i];

    ret.iiii[i] = a.rrrr[i]*b.iiii[i];

      }

      return ret;

    }


  };


  struct MaddRealPart{


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a,GpuVectorCF b,GpuVectorCF c){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = a.rrrr[i]*b.rrrr[i]+c.rrrr[i];

    ret.iiii[i] = a.rrrr[i]*b.iiii[i]+c.iiii[i];

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a,GpuVectorCD b,GpuVectorCD c){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = a.rrrr[i]*b.rrrr[i]+c.rrrr[i];

    ret.iiii[i] = a.rrrr[i]*b.iiii[i]+c.iiii[i];

      }

      return ret;

    }


  };


  struct MultComplex{


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a,GpuVectorCF b){

      return a*b;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a,GpuVectorCD b){

      return a*b;

    }


  };


  struct Mult{


    accelerator_inline void mac(GpuVectorRF &a, GpuVectorRF b, GpuVectorRF c){

      a= a+b*c;

    }


    accelerator_inline void mac(GpuVectorRD &a, GpuVectorRD b, GpuVectorRD c){

      a= a+b*c;

    }


    // Real float


    accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b){

      return a*b;

    }


    // Real double


    accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b){

      return a*b;

    }


    accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b){

      return a*b;

    }


  };


  struct Div{

    // Real float


    accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b){

      return a/b;

    }


    accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b){

      return a/b;

    }


    accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b){

      return a/b;

    }


    // Danger -- element wise divide fro complex, not complex div.

    // See Grid_vector_types.h lines around 735, applied after "toReal"


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b){

      return a/b;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b){

      return a/b;

    }


  };


  struct Conj{

    // Complex single


    accelerator_inline GpuVectorCF operator()(GpuVectorCF in){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = in.rrrr[i];

    ret.iiii[i] =-in.iiii[i];

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD in){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = in.rrrr[i];

    ret.iiii[i] =-in.iiii[i];

      }

      return ret;

    }


  };


  struct TimesMinusI{

    //Complex single


    accelerator_inline GpuVectorCF operator()(GpuVectorCF in){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = in.iiii[i];

    ret.iiii[i] =-in.rrrr[i];

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD in){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] = in.iiii[i];

    ret.iiii[i] =-in.rrrr[i];

      }

      return ret;

    }


  };


  struct TimesI{

    //Complex single


    accelerator_inline GpuVectorCF operator()(GpuVectorCF in){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] =-in.iiii[i];

    ret.iiii[i] = in.rrrr[i];

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD in){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.rrrr[i] =-in.iiii[i];

    ret.iiii[i] = in.rrrr[i];

      }

      return ret;

    }


  };


  struct Permute{


    template <int n,int _N, class _datum >


    static accelerator_inline GpuVector<_N,_datum> PermuteN(GpuVector<_N,_datum> &in) {

      typedef GpuVector<_N,_datum> vec;

      vec out;

      unsigned int _mask = vec::N >> (n + 1);

      for(int i=0;i<vec::N;i++) {

    out.rrrr[i] = in.rrrr[i^_mask];

      }

      return out;

    }


    template <int n,int _N, class _datum >


    static accelerator_inline GpuComplexVector<_N,_datum> PermuteN(GpuComplexVector<_N,_datum> &in) {

      typedef GpuComplexVector<_N,_datum> vec;

      vec out;

      unsigned int _mask = vec::N >> (n + 1);

      for(int i=0;i<vec::N;i++) {

    out.rrrr[i] = in.rrrr[i^_mask];

    out.iiii[i] = in.iiii[i^_mask];

      }

      return out;

    }


    template <typename vec>  static accelerator_inline vec Permute0(vec in) { return PermuteN<0,vec::N,typename vec::datum>(in);  }

    template <typename vec>  static accelerator_inline vec Permute1(vec in) { return PermuteN<1,vec::N,typename vec::datum>(in);  }

    template <typename vec>  static accelerator_inline vec Permute2(vec in) { return PermuteN<2,vec::N,typename vec::datum>(in);  }

    template <typename vec>  static accelerator_inline vec Permute3(vec in) { return PermuteN<3,vec::N,typename vec::datum>(in);  }


  };


  struct PrecisionChange {


    // Single / Half


     static accelerator_inline GpuVectorCH StoH (GpuVectorCF a,GpuVectorCF b) {

      int N = GpuVectorCF::N;

      GpuVectorCH h;

      for(int i=0;i<N;i++) {

        h.rrrr[i  ] = float2half(a.rrrr[i]);

        h.iiii[i  ] = float2half(a.iiii[i]);

    h.rrrr[i+N] = float2half(b.rrrr[i]);

    h.iiii[i+N] = float2half(b.iiii[i]);

      }

      return h;

    }


    static accelerator_inline void  HtoS (GpuVectorCH h,GpuVectorCF &sa,GpuVectorCF &sb) {

      int N = GpuVectorCF::N;

      for(int i=0;i<N;i++) {

    sa.rrrr[i] = half2float(h.rrrr[i  ]);

    sa.iiii[i] = half2float(h.iiii[i  ]);

    sb.rrrr[i] = half2float(h.rrrr[i+N]);

    sb.iiii[i] = half2float(h.iiii[i+N]);

      }

    }


    static accelerator_inline GpuVectorRH StoH (GpuVectorRF a,GpuVectorRF b) {

      int N = GpuVectorRF::N;

      GpuVectorRH h;

      for(int i=0;i<N;i++) {

        h.rrrr[i  ] = float2half(a.rrrr[i]);

    h.rrrr[i+N] = float2half(b.rrrr[i]);

      }

      return h;

    }


    static accelerator_inline void  HtoS (GpuVectorRH h,GpuVectorRF &sa,GpuVectorRF &sb) {

      int N = GpuVectorRF::N;

      for(int i=0;i<N;i++) {

    sa.rrrr[i] = half2float(h.rrrr[i  ]);

    sb.rrrr[i] = half2float(h.rrrr[i+N]);

      }

    }


    // Double Single


    static accelerator_inline GpuVectorCF DtoS (GpuVectorCD a,GpuVectorCD b) {

      int N = GpuVectorCD::N;

      GpuVectorCF h;

      for(int i=0;i<N;i++) {

        h.rrrr[i  ] = a.rrrr[i];

        h.iiii[i  ] = a.iiii[i];

    h.rrrr[i+N] = b.rrrr[i];

    h.iiii[i+N] = b.iiii[i];

      }

      return h;

    }


    static accelerator_inline void  StoD (GpuVectorCF h,GpuVectorCD &sa,GpuVectorCD &sb) {

      int N = GpuVectorCD::N;

      for(int i=0;i<N;i++) {

    sa.rrrr[i] = h.rrrr[i  ];

    sa.iiii[i] = h.iiii[i  ];

    sb.rrrr[i] = h.rrrr[i+N];

    sb.iiii[i] = h.iiii[i+N];

      }

    }


    static accelerator_inline GpuVectorRF DtoS (GpuVectorRD a,GpuVectorRD b) {

      int N = GpuVectorRD::N;

      GpuVectorRF h;

      for(int i=0;i<N;i++) {

        h.rrrr[i  ] = a.rrrr[i];

    h.rrrr[i+N] = b.rrrr[i];

      }

      return h;

    }


    static accelerator_inline void  StoD (GpuVectorRF h,GpuVectorRD &sa,GpuVectorRD &sb) {

      int N = GpuVectorRD::N;

      for(int i=0;i<N;i++) {

    sa.rrrr[i] = h.rrrr[i  ];

    sb.rrrr[i] = h.rrrr[i+N];

      }

    }


    // Double Half


    static accelerator_inline GpuVectorCH DtoH (GpuVectorCD a,GpuVectorCD b,GpuVectorCD c,GpuVectorCD d) {

      GpuVectorCF sa,sb;

      sa = DtoS(a,b);

      sb = DtoS(c,d);

      return StoH(sa,sb);

    }


    static accelerator_inline void HtoD (GpuVectorCH h,GpuVectorCD &a,GpuVectorCD &b,GpuVectorCD &c,GpuVectorCD &d) {

      GpuVectorCF sa,sb;

      HtoS(h,sa,sb);

      StoD(sa,a,b);

      StoD(sb,c,d);

    }


    static accelerator_inline GpuVectorRH DtoH (GpuVectorRD a,GpuVectorRD b,GpuVectorRD c,GpuVectorRD d) {

      GpuVectorRF sa,sb;

      sa = DtoS(a,b);

      sb = DtoS(c,d);

      return StoH(sa,sb);

    }


    static accelerator_inline void HtoD (GpuVectorRH h,GpuVectorRD &a,GpuVectorRD &b,GpuVectorRD &c,GpuVectorRD &d) {

      GpuVectorRF sa,sb;

      HtoS(h,sa,sb);

      StoD(sa,a,b);

      StoD(sb,c,d);

    }


  };


struct Exchange{


  template <int n,int _N, class _datum >


  static accelerator_inline void ExchangeN(GpuVector<_N,_datum> &out1,

                       GpuVector<_N,_datum> &out2,

                       GpuVector<_N,_datum> &in1,

                       GpuVector<_N,_datum> &in2 )

  {

    typedef GpuVector<_N,_datum> vec;

    unsigned int mask = vec::N >> (n + 1);

    for(int i=0;i<vec::N;i++) {

      int j1 = i&(~mask);

      if  ( (i&mask) == 0 ) { out1.rrrr[i]=in1.rrrr[j1];}

      else                  { out1.rrrr[i]=in2.rrrr[j1];}

      int j2 = i|mask;

      if  ( (i&mask) == 0 ) { out2.rrrr[i]=in1.rrrr[j2];}

      else                  { out2.rrrr[i]=in2.rrrr[j2];}

    }

  }


  template <int n,int _N, class _datum >


  static accelerator_inline void ExchangeN(GpuComplexVector<_N,_datum> &out1,

                       GpuComplexVector<_N,_datum> &out2,

                       GpuComplexVector<_N,_datum> &in1,

                       GpuComplexVector<_N,_datum> &in2 )

  {

    typedef GpuComplexVector<_N,_datum> vec;

    unsigned int mask = vec::N >> (n + 1);

    for(int i=0;i<vec::N;i++) {

      int j1 = i&(~mask);

      if  ( (i&mask) == 0 ) {

    out1.rrrr[i]=in1.rrrr[j1];

    out1.iiii[i]=in1.iiii[j1];

      }

      else                  {

    out1.rrrr[i]=in2.rrrr[j1];

    out1.iiii[i]=in2.iiii[j1];

      }

      int j2 = i|mask;

      if  ( (i&mask) == 0 ) {

    out2.rrrr[i]=in1.rrrr[j2];

    out2.iiii[i]=in1.iiii[j2];

      }

      else                  {

    out2.rrrr[i]=in2.rrrr[j2];

    out2.iiii[i]=in2.iiii[j2];

      }

    }

  }


  template <typename vec>


  static accelerator_inline void Exchange0(vec &out1,vec &out2,vec &in1,vec &in2){

    ExchangeN<0>(out1,out2,in1,in2);

  };


  template <typename vec>


  static accelerator_inline void Exchange1(vec &out1,vec &out2,vec &in1,vec &in2){

    ExchangeN<1>(out1,out2,in1,in2);

  };


  template <typename vec>


  static accelerator_inline void Exchange2(vec &out1,vec &out2,vec &in1,vec &in2){

    ExchangeN<2>(out1,out2,in1,in2);

  };


  template <typename vec>


  static accelerator_inline void Exchange3(vec &out1,vec &out2,vec &in1,vec &in2){

    ExchangeN<3>(out1,out2,in1,in2);

  };


};


struct Rotate{


  template <int n, typename vec> static accelerator_inline vec tRotate(vec in){

    return rotate(in, n);

  }


  template <int _N, class _datum >


  static accelerator_inline GpuComplexVector<_N,_datum> rotate_template(GpuComplexVector<_N,_datum> &in, int n)

  {

    typedef GpuComplexVector<_N,_datum> vec;

    vec out;

    for(int i=0;i<vec::N;i++){

      out.rrrr[i] = in.rrrr[(i + n)%vec::N];

      out.iiii[i] = in.iiii[(i + n)%vec::N];

    }

    return out;

  }


  template <int _N, class _datum >


  static accelerator_inline GpuVector<_N,_datum> rotate_template(GpuVector<_N,_datum> &in, int n)

  {

    typedef GpuVector<_N,_datum> vec;

    vec out;

    for(int i=0;i<vec::N;i++){

      out.rrrr[i] = in.rrrr[(i + n)%vec::N];

    }

    return out;

  }


  typedef GpuVectorRH  SIMD_Htype; // Single precision type

  typedef GpuVectorRF  SIMD_Ftype; // Single precision type

  typedef GpuVectorRD  SIMD_Dtype; // Double precision type

  typedef GpuVectorI   SIMD_Itype; // Integer type


  typedef GpuVectorCH  SIMD_CHtype; // Single precision type

  typedef GpuVectorCF  SIMD_CFtype; // Single precision type

  typedef GpuVectorCD  SIMD_CDtype; // Double precision type


  static accelerator_inline GpuVectorRH rotate(GpuVectorRH in, int n){ return rotate_template(in,n);}

  static accelerator_inline GpuVectorRF rotate(GpuVectorRF in, int n){ return rotate_template(in,n);}

  static accelerator_inline GpuVectorRD rotate(GpuVectorRD in, int n){ return rotate_template(in,n);}

  static accelerator_inline GpuVectorI  rotate(GpuVectorI  in, int n){ return rotate_template(in,n);}

  static accelerator_inline GpuVectorCH rotate(GpuVectorCH in, int n){ return rotate_template(in,n/2);} // Measure in complex not float

  static accelerator_inline GpuVectorCF rotate(GpuVectorCF in, int n){ return rotate_template(in,n/2);}

  static accelerator_inline GpuVectorCD rotate(GpuVectorCD in, int n){ return rotate_template(in,n/2);}


};


// Some Template specialization


  //Complex float Reduce

  template<>

  accelerator_inline Grid::ComplexF


  Reduce<Grid::ComplexF, GpuVectorCF>::operator()(GpuVectorCF in)

  {

    Grid::ComplexF greduce(in.rrrr[0],in.iiii[0]);

    for(int i=1;i<GpuVectorCF::N;i++) {

      greduce = greduce+Grid::ComplexF(in.rrrr[i],in.iiii[i]);

    }

    return greduce;

  }


  template<>

  accelerator_inline Grid::ComplexD


  Reduce<Grid::ComplexD, GpuVectorCD>::operator()(GpuVectorCD in)

  {

    Grid::ComplexD greduce(in.rrrr[0],in.iiii[0]);

    for(int i=1;i<GpuVectorCD::N;i++) {

      greduce = greduce+ Grid::ComplexD(in.rrrr[i],in.iiii[i]);

    }

    return greduce;

  }


  // Real

  template<>

  accelerator_inline Grid::RealF


  Reduce<RealF, GpuVectorRF>::operator()(GpuVectorRF in)

  {

    RealF ret = in.rrrr[0];

    for(int i=1;i<GpuVectorRF::N;i++) {

      ret = ret+in.rrrr[i];

    }

    return ret;

  }


  template<>

  accelerator_inline Grid::RealD


  Reduce<RealD, GpuVectorRD>::operator()(GpuVectorRD in)

  {

    RealD ret = in.rrrr[0];

    for(int i=1;i<GpuVectorRD::N;i++) {

      ret = ret+in.rrrr[i];

    }

    return ret;

  }


  template<>

  accelerator_inline Integer


  Reduce<Integer, GpuVectorI>::operator()(GpuVectorI in)

  {

    Integer ret = in.rrrr[0];

    for(int i=1;i<GpuVectorI::N;i++) {

      ret = ret+in.rrrr[i];

    }

    return ret;

  }


}// End optimizatoin


// Here assign types

  typedef GpuVectorRH  SIMD_Htype; // Single precision type

  typedef GpuVectorRF  SIMD_Ftype; // Single precision type

  typedef GpuVectorRD  SIMD_Dtype; // Double precision type

  typedef GpuVectorI   SIMD_Itype; // Integer type


  typedef GpuVectorCH  SIMD_CHtype; // Single precision type

  typedef GpuVectorCF  SIMD_CFtype; // Single precision type

  typedef GpuVectorCD  SIMD_CDtype; // Double precision type


  // prefetch utilities

  accelerator_inline void v_prefetch0(int size, const char *ptr){};

  accelerator_inline void prefetch_HINT_T0(const char *ptr){};


  // Function name aliases

  typedef Optimization::Vsplat   VsplatSIMD;

  typedef Optimization::Vstore   VstoreSIMD;

  typedef Optimization::Vset     VsetSIMD;

  typedef Optimization::Vstream  VstreamSIMD;

  template <typename S, typename T> using ReduceSIMD = Optimization::Reduce<S,T>;


  // Arithmetic operations

  typedef Optimization::Sum         SumSIMD;

  typedef Optimization::Sub         SubSIMD;

  typedef Optimization::Div         DivSIMD;

  typedef Optimization::Mult        MultSIMD;

  typedef Optimization::MultComplex MultComplexSIMD;

  typedef Optimization::MultRealPart MultRealPartSIMD;

  typedef Optimization::MaddRealPart MaddRealPartSIMD;

  typedef Optimization::Conj        ConjSIMD;

  typedef Optimization::TimesMinusI TimesMinusISIMD;

  typedef Optimization::TimesI      TimesISIMD;


}

accelerator_inline
#define accelerator_inline
Definition Accelerator.h:608

accelerator
#define accelerator
Definition Accelerator.h:607

COALESCE_GRANULARITY
#define COALESCE_GRANULARITY
Definition Grid_gpu_rrii.h:73

sfw_half_to_float
accelerator_inline float sfw_half_to_float(Grid_half h)
Definition Grid_vector_types.h:52

sfw_float_to_half
accelerator_inline Grid_half sfw_float_to_half(float ff)
Definition Grid_vector_types.h:69

real
Lattice< vobj > real(const Lattice< vobj > &lhs)
Definition Lattice_real_imag.h:41

imag
Lattice< vobj > imag(const Lattice< vobj > &lhs)
Definition Lattice_real_imag.h:53

Integer
uint32_t Integer
Definition Simd.h:58

RealF
float RealF
Definition Simd.h:60

RealD
double RealD
Definition Simd.h:61

F
static INTERNAL_PRECISION F
Definition Zolotarev.cc:230

Grid::Optimization
Definition Grid_gpu_rrii.h:186

Grid
Definition Deflation.h:31

Grid::float2half
accelerator_inline half float2half(float f)
Definition Grid_gpu_rrii.h:59

Grid::NSIMD_ComplexF
constexpr int NSIMD_ComplexF
Definition Grid_gpu_rrii.h:173

Grid::ReduceSIMD
Optimization::Reduce< S, T > ReduceSIMD
Definition Grid_gpu_rrii.h:864

Grid::MaddRealPartSIMD
Optimization::MaddRealPart MaddRealPartSIMD
Definition Grid_gpu_rrii.h:873

Grid::DivSIMD
Optimization::Div DivSIMD
Definition Grid_gpu_rrii.h:869

Grid::operator/
accelerator GpuVector< N, datum > operator/(const GpuVector< N, datum > l, const GpuVector< N, datum > r)
Definition Grid_gpu_rrii.h:111

Grid::GpuVectorCF
GpuComplexVector< NSIMD_ComplexF, float > GpuVectorCF
Definition Grid_gpu_rrii.h:181

Grid::MultComplexSIMD
Optimization::MultComplex MultComplexSIMD
Definition Grid_gpu_rrii.h:871

Grid::ConjSIMD
Optimization::Conj ConjSIMD
Definition Grid_gpu_rrii.h:874

Grid::VsplatSIMD
Optimization::Vsplat VsplatSIMD
Definition Grid_gpu_rrii.h:860

Grid::SumSIMD
Optimization::Sum SumSIMD
Definition Grid_gpu_rrii.h:867

Grid::prefetch_HINT_T0
accelerator_inline void prefetch_HINT_T0(const char *ptr)
Definition Grid_gpu_rrii.h:857

Grid::NSIMD_Integer
constexpr int NSIMD_Integer
Definition Grid_gpu_rrii.h:176

Grid::NSIMD_ComplexH
constexpr int NSIMD_ComplexH
Definition Grid_gpu_rrii.h:171

Grid::GpuVectorRF
GpuVector< NSIMD_RealF, float > GpuVectorRF
Definition Grid_gpu_rrii.h:180

Grid::MultRealPartSIMD
Optimization::MultRealPart MultRealPartSIMD
Definition Grid_gpu_rrii.h:872

Grid::TimesISIMD
Optimization::TimesI TimesISIMD
Definition Grid_gpu_rrii.h:876

Grid::NSIMD_ComplexD
constexpr int NSIMD_ComplexD
Definition Grid_gpu_rrii.h:175

Grid::SIMD_CDtype
GpuVectorCD SIMD_CDtype
Definition Grid_gpu_rrii.h:853

Grid::SIMD_Dtype
GpuVectorRD SIMD_Dtype
Definition Grid_gpu_rrii.h:848

Grid::MultSIMD
Optimization::Mult MultSIMD
Definition Grid_gpu_rrii.h:870

Grid::v_prefetch0
accelerator_inline void v_prefetch0(int size, const char *ptr)
Definition Grid_gpu_rrii.h:856

Grid::GpuVectorCH
GpuComplexVector< NSIMD_ComplexH, half > GpuVectorCH
Definition Grid_gpu_rrii.h:179

Grid::SIMD_Ftype
GpuVectorRF SIMD_Ftype
Definition Grid_gpu_rrii.h:847

Grid::SIMD_CHtype
GpuVectorCH SIMD_CHtype
Definition Grid_gpu_rrii.h:851

Grid::half2float
accelerator_inline float half2float(half h)
Definition Grid_gpu_rrii.h:47

Grid::NSIMD_RealH
constexpr int NSIMD_RealH
Definition Grid_gpu_rrii.h:170

Grid::SIMD_Itype
GpuVectorI SIMD_Itype
Definition Grid_gpu_rrii.h:849

Grid::VsetSIMD
Optimization::Vset VsetSIMD
Definition Grid_gpu_rrii.h:862

Grid::GpuVectorRD
GpuVector< NSIMD_RealD, double > GpuVectorRD
Definition Grid_gpu_rrii.h:182

Grid::VstoreSIMD
Optimization::Vstore VstoreSIMD
Definition Grid_gpu_rrii.h:861

Grid::GpuVectorRH
GpuVector< NSIMD_RealH, half > GpuVectorRH
Definition Grid_gpu_rrii.h:178

Grid::NSIMD_RealF
constexpr int NSIMD_RealF
Definition Grid_gpu_rrii.h:172

Grid::SubSIMD
Optimization::Sub SubSIMD
Definition Grid_gpu_rrii.h:868

Grid::SIMD_Htype
GpuVectorRH SIMD_Htype
Definition Grid_gpu_rrii.h:846

Grid::TimesMinusISIMD
Optimization::TimesMinusI TimesMinusISIMD
Definition Grid_gpu_rrii.h:875

Grid::GpuVectorI
GpuVector< NSIMD_Integer, Integer > GpuVectorI
Definition Grid_gpu_rrii.h:184

Grid::operator*
accelerator GpuVector< N, datum > operator*(const GpuVector< N, datum > l, const GpuVector< N, datum > r)
Definition Grid_gpu_rrii.h:87

Grid::SIMD_CFtype
GpuVectorCF SIMD_CFtype
Definition Grid_gpu_rrii.h:852

Grid::operator+
accelerator GpuVector< N, datum > operator+(const GpuVector< N, datum > l, const GpuVector< N, datum > r)
Definition Grid_gpu_rrii.h:103

Grid::VstreamSIMD
Optimization::Vstream VstreamSIMD
Definition Grid_gpu_rrii.h:863

Grid::operator-
accelerator GpuVector< N, datum > operator-(const GpuVector< N, datum > l, const GpuVector< N, datum > r)
Definition Grid_gpu_rrii.h:95

Grid::NSIMD_RealD
constexpr int NSIMD_RealD
Definition Grid_gpu_rrii.h:174

Grid::GpuVectorCD
GpuComplexVector< NSIMD_ComplexD, double > GpuVectorCD
Definition Grid_gpu_rrii.h:183

Grid::GpuComplexVector
Definition Grid_gpu_rrii.h:123

Grid::GpuComplexVector< NSIMD_ComplexH, half >::rrrr
half rrrr[_N]
Definition Grid_gpu_rrii.h:124

Grid::GpuComplexVector< NSIMD_ComplexH, half >::iiii
half iiii[_N]
Definition Grid_gpu_rrii.h:125

Grid::GpuComplexVector::datum
_datum datum
Definition Grid_gpu_rrii.h:127

Grid::GpuComplexVector< NSIMD_ComplexH, half >::N
static const int N
Definition Grid_gpu_rrii.h:126

Grid::GpuVector
Definition Grid_gpu_rrii.h:81

Grid::GpuVector< NSIMD_RealH, half >::rrrr
half rrrr[_N]
Definition Grid_gpu_rrii.h:82

Grid::GpuVector::datum
_datum datum
Definition Grid_gpu_rrii.h:84

Grid::GpuVector< NSIMD_RealH, half >::N
static const int N
Definition Grid_gpu_rrii.h:83

Grid::Optimization::Conj
Definition Grid_gpu_rrii.h:455

Grid::Optimization::Conj::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF in)
Definition Grid_gpu_rrii.h:457

Grid::Optimization::Conj::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD in)
Definition Grid_gpu_rrii.h:466

Grid::Optimization::Div
Definition Grid_gpu_rrii.h:432

Grid::Optimization::Div::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_rrii.h:449

Grid::Optimization::Div::operator()
accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b)
Definition Grid_gpu_rrii.h:437

Grid::Optimization::Div::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_rrii.h:446

Grid::Optimization::Div::operator()
accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b)
Definition Grid_gpu_rrii.h:434

Grid::Optimization::Div::operator()
accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b)
Definition Grid_gpu_rrii.h:440

Grid::Optimization::Exchange
Definition Grid_gpu_rrii.h:666

Grid::Optimization::Exchange::ExchangeN
static accelerator_inline void ExchangeN(GpuVector< _N, _datum > &out1, GpuVector< _N, _datum > &out2, GpuVector< _N, _datum > &in1, GpuVector< _N, _datum > &in2)
Definition Grid_gpu_rrii.h:669

Grid::Optimization::Exchange::Exchange1
static accelerator_inline void Exchange1(vec &out1, vec &out2, vec &in1, vec &in2)
Definition Grid_gpu_rrii.h:719

Grid::Optimization::Exchange::Exchange3
static accelerator_inline void Exchange3(vec &out1, vec &out2, vec &in1, vec &in2)
Definition Grid_gpu_rrii.h:727

Grid::Optimization::Exchange::Exchange0
static accelerator_inline void Exchange0(vec &out1, vec &out2, vec &in1, vec &in2)
Definition Grid_gpu_rrii.h:715

Grid::Optimization::Exchange::Exchange2
static accelerator_inline void Exchange2(vec &out1, vec &out2, vec &in1, vec &in2)
Definition Grid_gpu_rrii.h:723

Grid::Optimization::Exchange::ExchangeN
static accelerator_inline void ExchangeN(GpuComplexVector< _N, _datum > &out1, GpuComplexVector< _N, _datum > &out2, GpuComplexVector< _N, _datum > &in1, GpuComplexVector< _N, _datum > &in2)
Definition Grid_gpu_rrii.h:686

Grid::Optimization::MaddRealPart
Definition Grid_gpu_rrii.h:381

Grid::Optimization::MaddRealPart::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b, GpuVectorCD c)
Definition Grid_gpu_rrii.h:391

Grid::Optimization::MaddRealPart::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b, GpuVectorCF c)
Definition Grid_gpu_rrii.h:382

Grid::Optimization::MultComplex
Definition Grid_gpu_rrii.h:402

Grid::Optimization::MultComplex::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_rrii.h:407

Grid::Optimization::MultComplex::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_rrii.h:404

Grid::Optimization::MultRealPart
Definition Grid_gpu_rrii.h:360

Grid::Optimization::MultRealPart::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_rrii.h:361

Grid::Optimization::MultRealPart::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_rrii.h:370

Grid::Optimization::Mult
Definition Grid_gpu_rrii.h:412

Grid::Optimization::Mult::operator()
accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b)
Definition Grid_gpu_rrii.h:427

Grid::Optimization::Mult::operator()
accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b)
Definition Grid_gpu_rrii.h:424

Grid::Optimization::Mult::mac
accelerator_inline void mac(GpuVectorRF &a, GpuVectorRF b, GpuVectorRF c)
Definition Grid_gpu_rrii.h:413

Grid::Optimization::Mult::mac
accelerator_inline void mac(GpuVectorRD &a, GpuVectorRD b, GpuVectorRD c)
Definition Grid_gpu_rrii.h:416

Grid::Optimization::Mult::operator()
accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b)
Definition Grid_gpu_rrii.h:420

Grid::Optimization::Permute
Definition Grid_gpu_rrii.h:521

Grid::Optimization::Permute::PermuteN
static accelerator_inline GpuComplexVector< _N, _datum > PermuteN(GpuComplexVector< _N, _datum > &in)
Definition Grid_gpu_rrii.h:534

Grid::Optimization::Permute::Permute0
static accelerator_inline vec Permute0(vec in)
Definition Grid_gpu_rrii.h:545

Grid::Optimization::Permute::Permute1
static accelerator_inline vec Permute1(vec in)
Definition Grid_gpu_rrii.h:546

Grid::Optimization::Permute::Permute2
static accelerator_inline vec Permute2(vec in)
Definition Grid_gpu_rrii.h:547

Grid::Optimization::Permute::PermuteN
static accelerator_inline GpuVector< _N, _datum > PermuteN(GpuVector< _N, _datum > &in)
Definition Grid_gpu_rrii.h:524

Grid::Optimization::Permute::Permute3
static accelerator_inline vec Permute3(vec in)
Definition Grid_gpu_rrii.h:548

Grid::Optimization::PrecisionChange
Definition Grid_gpu_rrii.h:552

Grid::Optimization::PrecisionChange::DtoH
static accelerator_inline GpuVectorRH DtoH(GpuVectorRD a, GpuVectorRD b, GpuVectorRD c, GpuVectorRD d)
Definition Grid_gpu_rrii.h:652

Grid::Optimization::PrecisionChange::DtoH
static accelerator_inline GpuVectorCH DtoH(GpuVectorCD a, GpuVectorCD b, GpuVectorCD c, GpuVectorCD d)
Definition Grid_gpu_rrii.h:640

Grid::Optimization::PrecisionChange::HtoS
static accelerator_inline void HtoS(GpuVectorCH h, GpuVectorCF &sa, GpuVectorCF &sb)
Definition Grid_gpu_rrii.h:568

Grid::Optimization::PrecisionChange::DtoS
static accelerator_inline GpuVectorRF DtoS(GpuVectorRD a, GpuVectorRD b)
Definition Grid_gpu_rrii.h:619

Grid::Optimization::PrecisionChange::HtoD
static accelerator_inline void HtoD(GpuVectorRH h, GpuVectorRD &a, GpuVectorRD &b, GpuVectorRD &c, GpuVectorRD &d)
Definition Grid_gpu_rrii.h:658

Grid::Optimization::PrecisionChange::HtoS
static accelerator_inline void HtoS(GpuVectorRH h, GpuVectorRF &sa, GpuVectorRF &sb)
Definition Grid_gpu_rrii.h:586

Grid::Optimization::PrecisionChange::DtoS
static accelerator_inline GpuVectorCF DtoS(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_rrii.h:597

Grid::Optimization::PrecisionChange::HtoD
static accelerator_inline void HtoD(GpuVectorCH h, GpuVectorCD &a, GpuVectorCD &b, GpuVectorCD &c, GpuVectorCD &d)
Definition Grid_gpu_rrii.h:646

Grid::Optimization::PrecisionChange::StoD
static accelerator_inline void StoD(GpuVectorRF h, GpuVectorRD &sa, GpuVectorRD &sb)
Definition Grid_gpu_rrii.h:629

Grid::Optimization::PrecisionChange::StoH
static accelerator_inline GpuVectorRH StoH(GpuVectorRF a, GpuVectorRF b)
Definition Grid_gpu_rrii.h:577

Grid::Optimization::PrecisionChange::StoH
static accelerator_inline GpuVectorCH StoH(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_rrii.h:557

Grid::Optimization::PrecisionChange::StoD
static accelerator_inline void StoD(GpuVectorCF h, GpuVectorCD &sa, GpuVectorCD &sb)
Definition Grid_gpu_rrii.h:609

Grid::Optimization::Reduce
Definition Grid_gpu_rrii.h:310

Grid::Optimization::Reduce::operator()
accelerator_inline Out_type operator()(In_type in)
Definition Grid_gpu_rrii.h:313

Grid::Optimization::Rotate
Definition Grid_gpu_rrii.h:733

Grid::Optimization::Rotate::rotate_template
static accelerator_inline GpuVector< _N, _datum > rotate_template(GpuVector< _N, _datum > &in, int n)
Definition Grid_gpu_rrii.h:752

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorCH rotate(GpuVectorCH in, int n)
Definition Grid_gpu_rrii.h:775

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorI rotate(GpuVectorI in, int n)
Definition Grid_gpu_rrii.h:774

Grid::Optimization::Rotate::SIMD_CDtype
GpuVectorCD SIMD_CDtype
Definition Grid_gpu_rrii.h:769

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorRF rotate(GpuVectorRF in, int n)
Definition Grid_gpu_rrii.h:772

Grid::Optimization::Rotate::rotate_template
static accelerator_inline GpuComplexVector< _N, _datum > rotate_template(GpuComplexVector< _N, _datum > &in, int n)
Definition Grid_gpu_rrii.h:740

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorCF rotate(GpuVectorCF in, int n)
Definition Grid_gpu_rrii.h:776

Grid::Optimization::Rotate::SIMD_CFtype
GpuVectorCF SIMD_CFtype
Definition Grid_gpu_rrii.h:768

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorRH rotate(GpuVectorRH in, int n)
Definition Grid_gpu_rrii.h:771

Grid::Optimization::Rotate::SIMD_Dtype
GpuVectorRD SIMD_Dtype
Definition Grid_gpu_rrii.h:764

Grid::Optimization::Rotate::SIMD_Ftype
GpuVectorRF SIMD_Ftype
Definition Grid_gpu_rrii.h:763

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorRD rotate(GpuVectorRD in, int n)
Definition Grid_gpu_rrii.h:773

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorCD rotate(GpuVectorCD in, int n)
Definition Grid_gpu_rrii.h:777

Grid::Optimization::Rotate::SIMD_Htype
GpuVectorRH SIMD_Htype
Definition Grid_gpu_rrii.h:762

Grid::Optimization::Rotate::SIMD_Itype
GpuVectorI SIMD_Itype
Definition Grid_gpu_rrii.h:765

Grid::Optimization::Rotate::SIMD_CHtype
GpuVectorCH SIMD_CHtype
Definition Grid_gpu_rrii.h:767

Grid::Optimization::Rotate::tRotate
static accelerator_inline vec tRotate(vec in)
Definition Grid_gpu_rrii.h:735

Grid::Optimization::Sub
Definition Grid_gpu_rrii.h:342

Grid::Optimization::Sub::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_rrii.h:352

Grid::Optimization::Sub::operator()
accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b)
Definition Grid_gpu_rrii.h:343

Grid::Optimization::Sub::operator()
accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b)
Definition Grid_gpu_rrii.h:346

Grid::Optimization::Sub::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_rrii.h:349

Grid::Optimization::Sub::operator()
accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b)
Definition Grid_gpu_rrii.h:355

Grid::Optimization::Sum
Definition Grid_gpu_rrii.h:323

Grid::Optimization::Sum::operator()
accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b)
Definition Grid_gpu_rrii.h:337

Grid::Optimization::Sum::operator()
accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b)
Definition Grid_gpu_rrii.h:328

Grid::Optimization::Sum::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_rrii.h:334

Grid::Optimization::Sum::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_rrii.h:331

Grid::Optimization::Sum::operator()
accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b)
Definition Grid_gpu_rrii.h:325

Grid::Optimization::TimesI
Definition Grid_gpu_rrii.h:499

Grid::Optimization::TimesI::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD in)
Definition Grid_gpu_rrii.h:510

Grid::Optimization::TimesI::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF in)
Definition Grid_gpu_rrii.h:501

Grid::Optimization::TimesMinusI
Definition Grid_gpu_rrii.h:477

Grid::Optimization::TimesMinusI::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF in)
Definition Grid_gpu_rrii.h:479

Grid::Optimization::TimesMinusI::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD in)
Definition Grid_gpu_rrii.h:488

Grid::Optimization::Vset
Definition Grid_gpu_rrii.h:259

Grid::Optimization::Vset::operator()
accelerator_inline GpuVectorCF operator()(Grid::ComplexF *a)
Definition Grid_gpu_rrii.h:261

Grid::Optimization::Vset::operator()
accelerator_inline GpuVectorRD operator()(double *a)
Definition Grid_gpu_rrii.h:290

Grid::Optimization::Vset::operator()
accelerator_inline GpuVectorCD operator()(Grid::ComplexD *a)
Definition Grid_gpu_rrii.h:271

Grid::Optimization::Vset::operator()
accelerator_inline GpuVectorRF operator()(float *a)
Definition Grid_gpu_rrii.h:281

Grid::Optimization::Vset::operator()
accelerator_inline GpuVectorI operator()(Integer *a)
Definition Grid_gpu_rrii.h:299

Grid::Optimization::Vsplat
Definition Grid_gpu_rrii.h:188

Grid::Optimization::Vsplat::operator()
accelerator_inline GpuVectorCF operator()(float a, float b)
Definition Grid_gpu_rrii.h:190

Grid::Optimization::Vsplat::operator()
accelerator_inline GpuVectorI operator()(Integer a)
Definition Grid_gpu_rrii.h:224

Grid::Optimization::Vsplat::operator()
accelerator_inline GpuVectorRD operator()(double a)
Definition Grid_gpu_rrii.h:216

Grid::Optimization::Vsplat::operator()
accelerator_inline GpuVectorCD operator()(double a, double b)
Definition Grid_gpu_rrii.h:207

Grid::Optimization::Vsplat::operator()
accelerator_inline GpuVectorRF operator()(float a)
Definition Grid_gpu_rrii.h:199

Grid::Optimization::Vstore
Definition Grid_gpu_rrii.h:233

Grid::Optimization::Vstore::operator()
accelerator_inline void operator()(GpuComplexVector< N, datum > a, P *Fp)
Definition Grid_gpu_rrii.h:240

Grid::Optimization::Vstore::operator()
accelerator_inline void operator()(GpuVector< N, datum > a, P *Fp)
Definition Grid_gpu_rrii.h:235

Grid::Optimization::Vstream
Definition Grid_gpu_rrii.h:246

Grid::Optimization::Vstream::operator()
accelerator_inline void operator()(P *F, GpuVector< N, datum > a)
Definition Grid_gpu_rrii.h:248

Grid::Optimization::Vstream::operator()
accelerator_inline void operator()(P *F, GpuComplexVector< N, datum > a)
Definition Grid_gpu_rrii.h:253

Grid::half
Definition Grid_gpu_rrii.h:43

Grid::half::x
uint16_t x
Definition Grid_gpu_rrii.h:43

Grid_half
Definition Grid_vector_types.h:43

Grid_half::x
uint16_t x
Definition Grid_vector_types.h:46

vec
Definition Grid_a64fx-2.h:91