Grid/dev/Grid__gpu__vec_8h_source.html

    /*************************************************************************************


    Grid physics library, www.github.com/paboyle/Grid


    Source file: ./lib/simd/Grid_gpu.h


    Copyright (C) 2018


Author: Peter Boyle <paboyle@ph.ed.ac.uk>


    This program is free software; you can redistribute it and/or modify

    it under the terms of the GNU General Public License as published by

    the Free Software Foundation; either version 2 of the License, or

    (at your option) any later version.


    This program is distributed in the hope that it will be useful,

    but WITHOUT ANY WARRANTY; without even the implied warranty of

    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the

    GNU General Public License for more details.


    You should have received a copy of the GNU General Public License along

    with this program; if not, write to the Free Software Foundation, Inc.,

    51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.


    See the full license in the file "LICENSE" in the top level distribution directory

    *************************************************************************************/

    /*  END LEGAL */

//----------------------------------------------------------------------

//----------------------------------------------------------------------


#ifdef GRID_CUDA

#include <cuda_fp16.h>

#endif

#ifdef GRID_HIP

#include <hip/hip_fp16.h>

#endif

#if !defined(GRID_CUDA) && !defined(GRID_HIP)

namespace Grid {

  typedef struct { uint16_t x;} half;

  typedef struct { half   x; half   y;} half2;

  typedef struct { float  x; float  y;} float2;

  typedef struct { double x; double y;} double2;

}

#endif


namespace Grid {


typedef struct Half2_t { half x; half y; } Half2;


#define COALESCE_GRANULARITY ( GEN_SIMD_WIDTH )


template<class pair>


class GpuComplex {

public:

  pair z;

  typedef decltype(z.x) Real;

public:

  accelerator_inline GpuComplex() = default;

  accelerator_inline GpuComplex(Real re,Real im) { z.x=re; z.y=im; };

  accelerator_inline GpuComplex(const GpuComplex &zz) { z = zz.z;};

  accelerator_inline Real real(void) const { return z.x; };

  accelerator_inline Real imag(void) const { return z.y; };

  accelerator_inline GpuComplex &operator=(const Zero &zz) { z.x = 0; z.y=0; return *this; };


  accelerator_inline GpuComplex &operator*=(const GpuComplex &r) {

    *this = (*this) * r;

    return *this;

  }


  accelerator_inline GpuComplex &operator+=(const GpuComplex &r) {

    *this = (*this) + r;

    return *this;

  }


  accelerator_inline GpuComplex &operator-=(const GpuComplex &r) {

    *this = (*this) - r;

    return *this;

  }


  friend accelerator_inline  GpuComplex operator+(const GpuComplex &lhs,const GpuComplex &rhs) {

    GpuComplex r ;

    r.z.x = lhs.z.x + rhs.z.x;

    r.z.y = lhs.z.y + rhs.z.y;

    return r;

  }


  friend accelerator_inline GpuComplex operator-(const GpuComplex &lhs,const GpuComplex &rhs) {

    GpuComplex r ;

    r.z.x = lhs.z.x - rhs.z.x;

    r.z.y = lhs.z.y - rhs.z.y;

    return r;

  }


  friend accelerator_inline GpuComplex operator*(const GpuComplex &lhs,const GpuComplex &rhs) {

    GpuComplex r ;

    r.z.x= lhs.z.x*rhs.z.x - lhs.z.y*rhs.z.y; // rr-ii

    r.z.y= lhs.z.x*rhs.z.y + lhs.z.y*rhs.z.x; // ri+ir

    return r;

  }


  friend accelerator_inline GpuComplex real_mult(const GpuComplex &l,const GpuComplex &r)

  {

    GpuComplex ret;

    ret.z.x = l.z.x*r.z.x;

    ret.z.y = l.z.x*r.z.y;

    return ret;

  }


  friend std::ostream& operator<< (std::ostream& stream, const GpuComplex o){

    stream << "("<< o.z.x << ","<< o.z.y <<")";

    return stream;

  }


};


template<int _N, class _datum>

struct GpuVector {

  _datum v[_N];

  static const int N = _N;

  typedef _datum datum;

};


template<int N,class datum>

inline accelerator GpuVector<N,datum> operator*(const GpuVector<N,datum> l,const GpuVector<N,datum> r) {

  GpuVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.v[i] = l.v[i]*r.v[i];

  }

  return ret;

}

template<int N,class datum>

inline accelerator GpuVector<N,datum> operator-(const GpuVector<N,datum> l,const GpuVector<N,datum> r) {

  GpuVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.v[i] = l.v[i]-r.v[i];

  }

  return ret;

}

template<int N,class datum>

inline accelerator GpuVector<N,datum> operator+(const GpuVector<N,datum> l,const GpuVector<N,datum> r) {

  GpuVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.v[i] = l.v[i]+r.v[i];

  }

  return ret;

}

template<int N,class datum>

inline accelerator GpuVector<N,datum> operator/(const GpuVector<N,datum> l,const GpuVector<N,datum> r) {

  GpuVector<N,datum> ret;

  for(int i=0;i<N;i++) {

    ret.v[i] = l.v[i]/r.v[i];

  }

  return ret;

}


constexpr int NSIMD_RealH    = COALESCE_GRANULARITY / sizeof(half);

constexpr int NSIMD_ComplexH = COALESCE_GRANULARITY / sizeof(Half2);

constexpr int NSIMD_RealF    = COALESCE_GRANULARITY / sizeof(float);

constexpr int NSIMD_ComplexF = COALESCE_GRANULARITY / sizeof(float2);

constexpr int NSIMD_RealD    = COALESCE_GRANULARITY / sizeof(double);

constexpr int NSIMD_ComplexD = COALESCE_GRANULARITY / sizeof(double2);

constexpr int NSIMD_Integer  = COALESCE_GRANULARITY / sizeof(Integer);


typedef GpuComplex<Half2  > GpuComplexH;

typedef GpuComplex<float2 > GpuComplexF;

typedef GpuComplex<double2> GpuComplexD;


typedef GpuVector<NSIMD_RealH   , half        > GpuVectorRH;

typedef GpuVector<NSIMD_ComplexH, GpuComplexH > GpuVectorCH;

typedef GpuVector<NSIMD_RealF,    float       > GpuVectorRF;

typedef GpuVector<NSIMD_ComplexF, GpuComplexF > GpuVectorCF;

typedef GpuVector<NSIMD_RealD,    double      > GpuVectorRD;

typedef GpuVector<NSIMD_ComplexD, GpuComplexD > GpuVectorCD;

typedef GpuVector<NSIMD_Integer,  Integer     > GpuVectorI;


accelerator_inline GpuComplexF timesI(const GpuComplexF &r)     { return(GpuComplexF(-r.imag(),r.real()));}

accelerator_inline GpuComplexD timesI(const GpuComplexD &r)     { return(GpuComplexD(-r.imag(),r.real()));}

accelerator_inline GpuComplexF timesMinusI(const GpuComplexF &r){ return(GpuComplexF(r.imag(),-r.real()));}

accelerator_inline GpuComplexD timesMinusI(const GpuComplexD &r){ return(GpuComplexD(r.imag(),-r.real()));}


accelerator_inline float half2float(half h)

{

  float f;

#if defined(GRID_CUDA) || defined(GRID_HIP)

  f = __half2float(h);

#else

  Grid_half hh;

  hh.x = h.x;

  f=  sfw_half_to_float(hh);

#endif

  return f;

}

accelerator_inline half float2half(float f)

{

  half h;

#if defined(GRID_CUDA) || defined(GRID_HIP)

  h = __float2half(f);

#else

  Grid_half hh = sfw_float_to_half(f);

  h.x = hh.x;

#endif

  return h;

}


namespace Optimization {


  struct Vsplat{

    //Complex float


    accelerator_inline GpuVectorCF operator()(float a, float b){

      GpuVectorCF ret;

      for(int i=0;i<GpuVectorCF::N;i++){

    ret.v[i] = typename GpuVectorCF::datum(a,b);

      }

      return ret;

    }


    // Real float


    accelerator_inline GpuVectorRF operator()(float a){

      GpuVectorRF ret;

      for(int i=0;i<GpuVectorRF::N;i++){

    ret.v[i] = typename GpuVectorRF::datum(a);

      }

      return ret;

    }


    //Complex double


    accelerator_inline GpuVectorCD operator()(double a, double b){

      GpuVectorCD ret;

      for(int i=0;i<GpuVectorCD::N;i++){

    ret.v[i] = typename GpuVectorCD::datum(a,b);

      }

      return ret;

    }


    //Real double


    accelerator_inline GpuVectorRD operator()(double a){

      GpuVectorRD ret;

      for(int i=0;i<GpuVectorRD::N;i++){

    ret.v[i] = typename GpuVectorRD::datum(a);

      }

      return ret;

    }


    //Integer


    accelerator_inline GpuVectorI operator()(Integer a){

      GpuVectorI ret;

      for(int i=0;i<GpuVectorI::N;i++){

    ret.v[i] = typename GpuVectorI::datum(a);

      }

      return ret;

    }


  };


  struct Vstore{

    template<int N,class datum,class P>


    accelerator_inline void operator()(GpuVector<N,datum> a, P* Fp){

      GpuVector<N,datum> *vF = (GpuVector<N,datum> *)Fp;

      *vF = a;

    }


  };


  struct Vstream{

    template<int N,class datum, class P>


    accelerator_inline void operator()(P* F,GpuVector<N,datum> a){

      GpuVector<N,datum> *vF = (GpuVector<N,datum> *)F;

      *vF = a;

    }


  };


  struct Vset{

    // Complex float


    accelerator_inline GpuVectorCF operator()(Grid::ComplexF *a){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i] = vec::datum(a[i].real(),a[i].imag());

      }

      return ret;

    }


    // Complex double


    accelerator_inline GpuVectorCD operator()(Grid::ComplexD *a){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i] = vec::datum(a[i].real(),a[i].imag());

      }

      return ret;

    }


    // Real float


    accelerator_inline GpuVectorRF operator()(float *a){

      typedef GpuVectorRF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i] = vec::datum(a[i]);

      }

      return ret;

    }


    // Real double


    accelerator_inline GpuVectorRD operator()(double *a){

      typedef GpuVectorRD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i] = vec::datum(a[i]);

      }

      return ret;

    }


    // Integer


    accelerator_inline GpuVectorI operator()(Integer *a){

      typedef GpuVectorI vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i] = vec::datum(a[i]);

      }

      return ret;

    }


  };


  template <typename Out_type, typename In_type>

  struct Reduce{

    //Need templated class to overload output type

    //General form must generate error if compiled


    accelerator_inline Out_type operator()(In_type in){

      printf("Error, using wrong Reduce function\n");

      exit(1);

      return 0;

    }


  };


  // Arithmetic operations

  struct Sum{

    //Real float


    accelerator_inline GpuVectorRF operator()(GpuVectorRF a,GpuVectorRF b){

      return a+b;

    }


    accelerator_inline GpuVectorRD operator()(GpuVectorRD a,GpuVectorRD b){

      return a+b;

    }


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a,GpuVectorCF b){

      return a+b;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a,GpuVectorCD b){

      return a+b;

    }


    accelerator_inline GpuVectorI operator()(GpuVectorI a,GpuVectorI b){

      return a+b;

    }


  };


  struct Sub{


    accelerator_inline GpuVectorRF operator()(GpuVectorRF a,GpuVectorRF b){

      return a-b;

    }


    accelerator_inline GpuVectorRD operator()(GpuVectorRD a,GpuVectorRD b){

      return a-b;

    }


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a,GpuVectorCF b){

      return a-b;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a,GpuVectorCD b){

      return a-b;

    }


    accelerator_inline GpuVectorI operator()(GpuVectorI a,GpuVectorI b){

      return a-b;

    }


  };


  struct MultRealPart{


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a,GpuVectorCF b){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i] = real_mult(a.v[i],b.v[i]);

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a,GpuVectorCD b){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i] = real_mult(a.v[i],b.v[i]);

      }

      return ret;

    }


  };


  struct MaddRealPart{


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a,GpuVectorCF b,GpuVectorCF c){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i] = real_mult(a.v[i],b.v[i]) +c.v[i];

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a,GpuVectorCD b,GpuVectorCD c){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i] = real_mult(a.v[i],b.v[i]) +c.v[i];

      }

      return ret;

    }


  };


  struct MultComplex{


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a,GpuVectorCF b){

      return a*b;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a,GpuVectorCD b){

      return a*b;

    }


  };


  struct Mult{


    accelerator_inline void mac(GpuVectorRF &a, GpuVectorRF b, GpuVectorRF c){

      a= a+b*c;

    }


    accelerator_inline void mac(GpuVectorRD &a, GpuVectorRD b, GpuVectorRD c){

      a= a+b*c;

    }


    // Real float


    accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b){

      return a*b;

    }


    // Real double


    accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b){

      return a*b;

    }


    accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b){

      return a*b;

    }


  };


  struct Div{

    // Real float


    accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b){

      return a/b;

    }


    accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b){

      return a/b;

    }


    accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b){

      return a/b;

    }


    // Danger -- element wise divide fro complex, not complex div.

    // See Grid_vector_types.h lines around 735, applied after "toReal"


    accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b){

      GpuVectorCF ret;

      for(int i=0;i< GpuVectorCF::N;i++){

    ret.v[i].z.x = a.v[i].z.x / b.v[i].z.x;

    ret.v[i].z.y = a.v[i].z.y / b.v[i].z.y;

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b){

      GpuVectorCD ret;

      for(int i=0;i< GpuVectorCD::N;i++){

    ret.v[i].z.x = a.v[i].z.x / b.v[i].z.x;

    ret.v[i].z.y = a.v[i].z.y / b.v[i].z.y;

      }

      return ret;

    }


  };


  struct Conj{

    // Complex single


    accelerator_inline GpuVectorCF operator()(GpuVectorCF in){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i].z.x = in.v[i].z.x;

    ret.v[i].z.y =-in.v[i].z.y;

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD in){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i].z.x = in.v[i].z.x;

    ret.v[i].z.y =-in.v[i].z.y;

      }

      return ret;

    }


  };


  struct TimesMinusI{

    //Complex single


    accelerator_inline GpuVectorCF operator()(GpuVectorCF in){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i].z.x = in.v[i].z.y;

    ret.v[i].z.y =-in.v[i].z.x;

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD in){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i].z.x = in.v[i].z.y;

    ret.v[i].z.y =-in.v[i].z.x;

      }

      return ret;

    }


  };


  struct TimesI{

    //Complex single


    accelerator_inline GpuVectorCF operator()(GpuVectorCF in){

      typedef GpuVectorCF vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i].z.x =-in.v[i].z.y;

    ret.v[i].z.y = in.v[i].z.x;

      }

      return ret;

    }


    accelerator_inline GpuVectorCD operator()(GpuVectorCD in){

      typedef GpuVectorCD vec;

      vec ret;

      for(int i=0;i<vec::N;i++){

    ret.v[i].z.x =-in.v[i].z.y;

    ret.v[i].z.y = in.v[i].z.x;

      }

      return ret;

    }


  };


  struct Permute{


    template <int n,typename vec>


    static accelerator_inline vec PermuteN(vec in) {

      vec out;

      unsigned int _mask = vec::N >> (n + 1);

      for(int i=0;i<vec::N;i++) {

    out.v[i] = in.v[i^_mask];

      }

      return out;

    }


    template <typename vec>  static accelerator_inline vec Permute0(vec in) { return PermuteN<0,vec>(in);  }

    template <typename vec>  static accelerator_inline vec Permute1(vec in) { return PermuteN<1,vec>(in);  }

    template <typename vec>  static accelerator_inline vec Permute2(vec in) { return PermuteN<2,vec>(in);  }

    template <typename vec>  static accelerator_inline vec Permute3(vec in) { return PermuteN<3,vec>(in);  }


  };


  struct PrecisionChange {


    // Single / Half


     static accelerator_inline GpuVectorCH StoH (GpuVectorCF a,GpuVectorCF b) {

      int N = GpuVectorCF::N;

      GpuVectorCH h;

      for(int i=0;i<N;i++) {

        h.v[i  ].z.x = float2half(a.v[i].z.x);

        h.v[i  ].z.y = float2half(a.v[i].z.y);

    h.v[i+N].z.x = float2half(b.v[i].z.x);

    h.v[i+N].z.y = float2half(b.v[i].z.y);

      }

      return h;

    }


    static accelerator_inline void  HtoS (GpuVectorCH h,GpuVectorCF &sa,GpuVectorCF &sb) {

      int N = GpuVectorCF::N;

      for(int i=0;i<N;i++) {

    sa.v[i].z.x = half2float(h.v[i  ].z.x);

    sa.v[i].z.y = half2float(h.v[i  ].z.y);

    sb.v[i].z.x = half2float(h.v[i+N].z.x);

    sb.v[i].z.y = half2float(h.v[i+N].z.y);

      }

    }


    static accelerator_inline GpuVectorRH StoH (GpuVectorRF a,GpuVectorRF b) {

      int N = GpuVectorRF::N;

      GpuVectorRH h;

      for(int i=0;i<N;i++) {

        h.v[i  ] = float2half(a.v[i]);

    h.v[i+N] = float2half(b.v[i]);

      }

      return h;

    }


    static accelerator_inline void  HtoS (GpuVectorRH h,GpuVectorRF &sa,GpuVectorRF &sb) {

      int N = GpuVectorRF::N;

      for(int i=0;i<N;i++) {

    sa.v[i] = half2float(h.v[i  ]);

    sb.v[i] = half2float(h.v[i+N]);

      }

    }


    // Double Single


    static accelerator_inline GpuVectorCF DtoS (GpuVectorCD a,GpuVectorCD b) {

      int N = GpuVectorCD::N;

      GpuVectorCF h;

      for(int i=0;i<N;i++) {

        h.v[i  ].z.x = a.v[i].z.x;

        h.v[i  ].z.y = a.v[i].z.y;

    h.v[i+N].z.x = b.v[i].z.x;

    h.v[i+N].z.y = b.v[i].z.y;

      }

      return h;

    }


    static accelerator_inline void  StoD (GpuVectorCF h,GpuVectorCD &sa,GpuVectorCD &sb) {

      int N = GpuVectorCD::N;

      for(int i=0;i<N;i++) {

    sa.v[i].z.x = h.v[i  ].z.x;

    sa.v[i].z.y = h.v[i  ].z.y;

    sb.v[i].z.x = h.v[i+N].z.x;

    sb.v[i].z.y = h.v[i+N].z.y;

      }

    }


    static accelerator_inline GpuVectorRF DtoS (GpuVectorRD a,GpuVectorRD b) {

      int N = GpuVectorRD::N;

      GpuVectorRF h;

      for(int i=0;i<N;i++) {

        h.v[i  ] = a.v[i];

    h.v[i+N] = b.v[i];

      }

      return h;

    }


    static accelerator_inline void  StoD (GpuVectorRF h,GpuVectorRD &sa,GpuVectorRD &sb) {

      int N = GpuVectorRD::N;

      for(int i=0;i<N;i++) {

    sa.v[i] = h.v[i  ];

    sb.v[i] = h.v[i+N];

      }

    }


    // Double Half


    static accelerator_inline GpuVectorCH DtoH (GpuVectorCD a,GpuVectorCD b,GpuVectorCD c,GpuVectorCD d) {

      GpuVectorCF sa,sb;

      sa = DtoS(a,b);

      sb = DtoS(c,d);

      return StoH(sa,sb);

    }


    static accelerator_inline void HtoD (GpuVectorCH h,GpuVectorCD &a,GpuVectorCD &b,GpuVectorCD &c,GpuVectorCD &d) {

      GpuVectorCF sa,sb;

      HtoS(h,sa,sb);

      StoD(sa,a,b);

      StoD(sb,c,d);

    }


    static accelerator_inline GpuVectorRH DtoH (GpuVectorRD a,GpuVectorRD b,GpuVectorRD c,GpuVectorRD d) {

      GpuVectorRF sa,sb;

      sa = DtoS(a,b);

      sb = DtoS(c,d);

      return StoH(sa,sb);

    }


    static accelerator_inline void HtoD (GpuVectorRH h,GpuVectorRD &a,GpuVectorRD &b,GpuVectorRD &c,GpuVectorRD &d) {

      GpuVectorRF sa,sb;

      HtoS(h,sa,sb);

      StoD(sa,a,b);

      StoD(sb,c,d);

    }


  };


struct Exchange{


  template <typename vec,int n>


  static accelerator_inline void ExchangeN(vec &out1,vec &out2,vec &in1,vec &in2){

    unsigned int mask = vec::N >> (n + 1);

    for(int i=0;i<vec::N;i++) {

      int j1 = i&(~mask);

      if  ( (i&mask) == 0 ) { out1.v[i]=in1.v[j1];}

      else                  { out1.v[i]=in2.v[j1];}

      int j2 = i|mask;

      if  ( (i&mask) == 0 ) { out2.v[i]=in1.v[j2];}

      else                  { out2.v[i]=in2.v[j2];}

    }

  }


  template <typename vec>


  static accelerator_inline void Exchange0(vec &out1,vec &out2,vec &in1,vec &in2){

    ExchangeN<vec,0>(out1,out2,in1,in2);

  };


  template <typename vec>


  static accelerator_inline void Exchange1(vec &out1,vec &out2,vec &in1,vec &in2){

    ExchangeN<vec,1>(out1,out2,in1,in2);

  };


  template <typename vec>


  static accelerator_inline void Exchange2(vec &out1,vec &out2,vec &in1,vec &in2){

    ExchangeN<vec,2>(out1,out2,in1,in2);

  };


  template <typename vec>


  static accelerator_inline void Exchange3(vec &out1,vec &out2,vec &in1,vec &in2){

    ExchangeN<vec,3>(out1,out2,in1,in2);

  };


};


struct Rotate{


  template <int n, typename vec> static accelerator_inline vec tRotate(vec in){

    return rotate(in, n);

  }


  template <typename vec>


  static accelerator_inline vec rotate_template(vec in, int n){

    vec out;

    for(int i=0;i<vec::N;i++){

      out.v[i] = in.v[(i + n)%vec::N];

    }

    return out;

  }


  typedef GpuVectorRH  SIMD_Htype; // Single precision type

  typedef GpuVectorRF  SIMD_Ftype; // Single precision type

  typedef GpuVectorRD  SIMD_Dtype; // Double precision type

  typedef GpuVectorI   SIMD_Itype; // Integer type


  typedef GpuVectorCH  SIMD_CHtype; // Single precision type

  typedef GpuVectorCF  SIMD_CFtype; // Single precision type

  typedef GpuVectorCD  SIMD_CDtype; // Double precision type


  static accelerator_inline GpuVectorRH rotate(GpuVectorRH in, int n){ return rotate_template(in,n);}

  static accelerator_inline GpuVectorRF rotate(GpuVectorRF in, int n){ return rotate_template(in,n);}

  static accelerator_inline GpuVectorRD rotate(GpuVectorRD in, int n){ return rotate_template(in,n);}

  static accelerator_inline GpuVectorI  rotate(GpuVectorI  in, int n){ return rotate_template(in,n);}

  static accelerator_inline GpuVectorCH rotate(GpuVectorCH in, int n){ return rotate_template(in,n/2);} // Measure in complex not float

  static accelerator_inline GpuVectorCF rotate(GpuVectorCF in, int n){ return rotate_template(in,n/2);}

  static accelerator_inline GpuVectorCD rotate(GpuVectorCD in, int n){ return rotate_template(in,n/2);}


};


// Some Template specialization


  //Complex float Reduce

  template<>

  accelerator_inline Grid::ComplexF


  Reduce<Grid::ComplexF, GpuVectorCF>::operator()(GpuVectorCF in)

  {

    GpuComplexF greduce = in.v[0];

    for(int i=1;i<GpuVectorCF::N;i++) {

      greduce = greduce+in.v[i];

    }

    Grid::ComplexF ret(greduce.z.x,greduce.z.y);

    return ret;

  }


  template<>

  accelerator_inline Grid::ComplexD


  Reduce<Grid::ComplexD, GpuVectorCD>::operator()(GpuVectorCD in)

  {

    GpuComplexD greduce = in.v[0];

    for(int i=1;i<GpuVectorCD::N;i++) {

      greduce = greduce+in.v[i];

    }

    Grid::ComplexD ret(greduce.z.x,greduce.z.y);

    return ret;

  }


  // Real

  template<>

  accelerator_inline Grid::RealF


  Reduce<RealF, GpuVectorRF>::operator()(GpuVectorRF in)

  {

    RealF ret = in.v[0];

    for(int i=1;i<GpuVectorRF::N;i++) {

      ret = ret+in.v[i];

    }

    return ret;

  }


  template<>

  accelerator_inline Grid::RealD


  Reduce<RealD, GpuVectorRD>::operator()(GpuVectorRD in)

  {

    RealD ret = in.v[0];

    for(int i=1;i<GpuVectorRD::N;i++) {

      ret = ret+in.v[i];

    }

    return ret;

  }


  template<>

  accelerator_inline Integer


  Reduce<Integer, GpuVectorI>::operator()(GpuVectorI in)

  {

    Integer ret = in.v[0];

    for(int i=1;i<GpuVectorI::N;i++) {

      ret = ret+in.v[i];

    }

    return ret;

  }


}// End optimizatoin


// Here assign types

  typedef GpuVectorRH  SIMD_Htype; // Single precision type

  typedef GpuVectorRF  SIMD_Ftype; // Single precision type

  typedef GpuVectorRD  SIMD_Dtype; // Double precision type

  typedef GpuVectorI   SIMD_Itype; // Integer type


  typedef GpuVectorCH  SIMD_CHtype; // Single precision type

  typedef GpuVectorCF  SIMD_CFtype; // Single precision type

  typedef GpuVectorCD  SIMD_CDtype; // Double precision type


  // prefetch utilities

  accelerator_inline void v_prefetch0(int size, const char *ptr){};

  accelerator_inline void prefetch_HINT_T0(const char *ptr){};


  // Function name aliases

  typedef Optimization::Vsplat   VsplatSIMD;

  typedef Optimization::Vstore   VstoreSIMD;

  typedef Optimization::Vset     VsetSIMD;

  typedef Optimization::Vstream  VstreamSIMD;

  template <typename S, typename T> using ReduceSIMD = Optimization::Reduce<S,T>;


  // Arithmetic operations

  typedef Optimization::Sum         SumSIMD;

  typedef Optimization::Sub         SubSIMD;

  typedef Optimization::Div         DivSIMD;

  typedef Optimization::Mult        MultSIMD;

  typedef Optimization::MultComplex MultComplexSIMD;

  typedef Optimization::MultRealPart MultRealPartSIMD;

  typedef Optimization::MaddRealPart MaddRealPartSIMD;

  typedef Optimization::Conj        ConjSIMD;

  typedef Optimization::TimesMinusI TimesMinusISIMD;

  typedef Optimization::TimesI      TimesISIMD;


}

accelerator_inline
#define accelerator_inline
Definition Accelerator.h:608

accelerator
#define accelerator
Definition Accelerator.h:607

real_mult
accelerator_inline Grid_simd2< S, V > real_mult(Grid_simd2< S, V > a, Grid_simd2< S, V > b)
Definition Grid_doubled_vector.h:537

COALESCE_GRANULARITY
#define COALESCE_GRANULARITY
Definition Grid_gpu_rrii.h:73

sfw_half_to_float
accelerator_inline float sfw_half_to_float(Grid_half h)
Definition Grid_vector_types.h:52

sfw_float_to_half
accelerator_inline Grid_half sfw_float_to_half(float ff)
Definition Grid_vector_types.h:69

real
Lattice< vobj > real(const Lattice< vobj > &lhs)
Definition Lattice_real_imag.h:41

imag
Lattice< vobj > imag(const Lattice< vobj > &lhs)
Definition Lattice_real_imag.h:53

Integer
uint32_t Integer
Definition Simd.h:58

RealF
float RealF
Definition Simd.h:60

RealD
double RealD
Definition Simd.h:61

F
static INTERNAL_PRECISION F
Definition Zolotarev.cc:230

Grid::GpuComplex
Definition Grid_gpu_vec.h:60

Grid::GpuComplex::GpuComplex
accelerator_inline GpuComplex()=default

Grid::GpuComplex< Half2 >::z
Half2 z
Definition Grid_gpu_vec.h:62

Grid::GpuComplex::operator-=
accelerator_inline GpuComplex & operator-=(const GpuComplex &r)
Definition Grid_gpu_vec.h:79

Grid::GpuComplex::operator+=
accelerator_inline GpuComplex & operator+=(const GpuComplex &r)
Definition Grid_gpu_vec.h:75

Grid::GpuComplex::real
accelerator_inline Real real(void) const
Definition Grid_gpu_vec.h:68

Grid::GpuComplex::imag
accelerator_inline Real imag(void) const
Definition Grid_gpu_vec.h:69

Grid::GpuComplex::operator*
friend accelerator_inline GpuComplex operator*(const GpuComplex &lhs, const GpuComplex &rhs)
Definition Grid_gpu_vec.h:95

Grid::GpuComplex::GpuComplex
accelerator_inline GpuComplex(const GpuComplex &zz)
Definition Grid_gpu_vec.h:67

Grid::GpuComplex::operator<<
friend std::ostream & operator<<(std::ostream &stream, const GpuComplex o)
Definition Grid_gpu_vec.h:108

Grid::GpuComplex::operator=
accelerator_inline GpuComplex & operator=(const Zero &zz)
Definition Grid_gpu_vec.h:70

Grid::GpuComplex::operator+
friend accelerator_inline GpuComplex operator+(const GpuComplex &lhs, const GpuComplex &rhs)
Definition Grid_gpu_vec.h:83

Grid::GpuComplex::operator-
friend accelerator_inline GpuComplex operator-(const GpuComplex &lhs, const GpuComplex &rhs)
Definition Grid_gpu_vec.h:89

Grid::GpuComplex::Real
decltype(z.x) Real
Definition Grid_gpu_vec.h:63

Grid::GpuComplex::operator*=
accelerator_inline GpuComplex & operator*=(const GpuComplex &r)
Definition Grid_gpu_vec.h:71

Grid::GpuComplex::real_mult
friend accelerator_inline GpuComplex real_mult(const GpuComplex &l, const GpuComplex &r)
Definition Grid_gpu_vec.h:101

Grid::GpuComplex::GpuComplex
accelerator_inline GpuComplex(Real re, Real im)
Definition Grid_gpu_vec.h:66

Zero
Definition Simd.h:194

Grid::Optimization
Definition Grid_gpu_rrii.h:186

Grid
Definition Deflation.h:31

Grid::float2half
accelerator_inline half float2half(float f)
Definition Grid_gpu_rrii.h:59

Grid::NSIMD_ComplexF
constexpr int NSIMD_ComplexF
Definition Grid_gpu_rrii.h:173

Grid::ReduceSIMD
Optimization::Reduce< S, T > ReduceSIMD
Definition Grid_gpu_rrii.h:864

Grid::MaddRealPartSIMD
Optimization::MaddRealPart MaddRealPartSIMD
Definition Grid_gpu_rrii.h:873

Grid::Half2
struct Grid::Half2_t Half2

Grid::DivSIMD
Optimization::Div DivSIMD
Definition Grid_gpu_rrii.h:869

Grid::operator/
accelerator GpuVector< N, datum > operator/(const GpuVector< N, datum > l, const GpuVector< N, datum > r)
Definition Grid_gpu_rrii.h:111

Grid::GpuVectorCF
GpuComplexVector< NSIMD_ComplexF, float > GpuVectorCF
Definition Grid_gpu_rrii.h:181

Grid::GpuComplexD
GpuComplex< double2 > GpuComplexD
Definition Grid_gpu_vec.h:165

Grid::GpuComplexH
GpuComplex< Half2 > GpuComplexH
Definition Grid_gpu_vec.h:163

Grid::MultComplexSIMD
Optimization::MultComplex MultComplexSIMD
Definition Grid_gpu_rrii.h:871

Grid::ConjSIMD
Optimization::Conj ConjSIMD
Definition Grid_gpu_rrii.h:874

Grid::VsplatSIMD
Optimization::Vsplat VsplatSIMD
Definition Grid_gpu_rrii.h:860

Grid::timesMinusI
accelerator_inline GpuComplexF timesMinusI(const GpuComplexF &r)
Definition Grid_gpu_vec.h:177

Grid::SumSIMD
Optimization::Sum SumSIMD
Definition Grid_gpu_rrii.h:867

Grid::prefetch_HINT_T0
accelerator_inline void prefetch_HINT_T0(const char *ptr)
Definition Grid_gpu_rrii.h:857

Grid::NSIMD_Integer
constexpr int NSIMD_Integer
Definition Grid_gpu_rrii.h:176

Grid::NSIMD_ComplexH
constexpr int NSIMD_ComplexH
Definition Grid_gpu_rrii.h:171

Grid::GpuComplexF
GpuComplex< float2 > GpuComplexF
Definition Grid_gpu_vec.h:164

Grid::GpuVectorRF
GpuVector< NSIMD_RealF, float > GpuVectorRF
Definition Grid_gpu_rrii.h:180

Grid::MultRealPartSIMD
Optimization::MultRealPart MultRealPartSIMD
Definition Grid_gpu_rrii.h:872

Grid::TimesISIMD
Optimization::TimesI TimesISIMD
Definition Grid_gpu_rrii.h:876

Grid::NSIMD_ComplexD
constexpr int NSIMD_ComplexD
Definition Grid_gpu_rrii.h:175

Grid::SIMD_CDtype
GpuVectorCD SIMD_CDtype
Definition Grid_gpu_rrii.h:853

Grid::SIMD_Dtype
GpuVectorRD SIMD_Dtype
Definition Grid_gpu_rrii.h:848

Grid::MultSIMD
Optimization::Mult MultSIMD
Definition Grid_gpu_rrii.h:870

Grid::v_prefetch0
accelerator_inline void v_prefetch0(int size, const char *ptr)
Definition Grid_gpu_rrii.h:856

Grid::timesI
accelerator_inline GpuComplexF timesI(const GpuComplexF &r)
Definition Grid_gpu_vec.h:175

Grid::GpuVectorCH
GpuComplexVector< NSIMD_ComplexH, half > GpuVectorCH
Definition Grid_gpu_rrii.h:179

Grid::SIMD_Ftype
GpuVectorRF SIMD_Ftype
Definition Grid_gpu_rrii.h:847

Grid::SIMD_CHtype
GpuVectorCH SIMD_CHtype
Definition Grid_gpu_rrii.h:851

Grid::half2float
accelerator_inline float half2float(half h)
Definition Grid_gpu_rrii.h:47

Grid::NSIMD_RealH
constexpr int NSIMD_RealH
Definition Grid_gpu_rrii.h:170

Grid::SIMD_Itype
GpuVectorI SIMD_Itype
Definition Grid_gpu_rrii.h:849

Grid::VsetSIMD
Optimization::Vset VsetSIMD
Definition Grid_gpu_rrii.h:862

Grid::GpuVectorRD
GpuVector< NSIMD_RealD, double > GpuVectorRD
Definition Grid_gpu_rrii.h:182

Grid::VstoreSIMD
Optimization::Vstore VstoreSIMD
Definition Grid_gpu_rrii.h:861

Grid::GpuVectorRH
GpuVector< NSIMD_RealH, half > GpuVectorRH
Definition Grid_gpu_rrii.h:178

Grid::NSIMD_RealF
constexpr int NSIMD_RealF
Definition Grid_gpu_rrii.h:172

Grid::SubSIMD
Optimization::Sub SubSIMD
Definition Grid_gpu_rrii.h:868

Grid::SIMD_Htype
GpuVectorRH SIMD_Htype
Definition Grid_gpu_rrii.h:846

Grid::TimesMinusISIMD
Optimization::TimesMinusI TimesMinusISIMD
Definition Grid_gpu_rrii.h:875

Grid::GpuVectorI
GpuVector< NSIMD_Integer, Integer > GpuVectorI
Definition Grid_gpu_rrii.h:184

Grid::operator*
accelerator GpuVector< N, datum > operator*(const GpuVector< N, datum > l, const GpuVector< N, datum > r)
Definition Grid_gpu_rrii.h:87

Grid::SIMD_CFtype
GpuVectorCF SIMD_CFtype
Definition Grid_gpu_rrii.h:852

Grid::operator+
accelerator GpuVector< N, datum > operator+(const GpuVector< N, datum > l, const GpuVector< N, datum > r)
Definition Grid_gpu_rrii.h:103

Grid::VstreamSIMD
Optimization::Vstream VstreamSIMD
Definition Grid_gpu_rrii.h:863

Grid::operator-
accelerator GpuVector< N, datum > operator-(const GpuVector< N, datum > l, const GpuVector< N, datum > r)
Definition Grid_gpu_rrii.h:95

Grid::NSIMD_RealD
constexpr int NSIMD_RealD
Definition Grid_gpu_rrii.h:174

Grid::GpuVectorCD
GpuComplexVector< NSIMD_ComplexD, double > GpuVectorCD
Definition Grid_gpu_rrii.h:183

Conj
Definition Grid_a64fx-2.h:485

Div
Definition Grid_a64fx-2.h:470

Exchange
Definition Grid_a64fx-2.h:641

Grid::GpuComplexVector< NSIMD_ComplexF, float >::datum
float datum
Definition Grid_gpu_rrii.h:127

Grid::GpuComplexVector< NSIMD_ComplexF, float >::N
static const int N
Definition Grid_gpu_rrii.h:126

Grid::GpuVector
Definition Grid_gpu_rrii.h:81

Grid::GpuVector< NSIMD_RealH, half >::datum
half datum
Definition Grid_gpu_vec.h:118

Grid::GpuVector< NSIMD_RealH, half >::v
half v[_N]
Definition Grid_gpu_vec.h:116

Grid::GpuVector< NSIMD_RealH, half >::N
static const int N
Definition Grid_gpu_rrii.h:83

Grid::Half2_t
Definition Grid_gpu_vec.h:55

Grid::Half2_t::y
half y
Definition Grid_gpu_vec.h:55

Grid::Half2_t::x
half x
Definition Grid_gpu_vec.h:55

Grid::Optimization::Conj
Definition Grid_gpu_rrii.h:455

Grid::Optimization::Conj::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF in)
Definition Grid_gpu_vec.h:467

Grid::Optimization::Conj::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD in)
Definition Grid_gpu_vec.h:476

Grid::Optimization::Div
Definition Grid_gpu_rrii.h:432

Grid::Optimization::Div::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_vec.h:454

Grid::Optimization::Div::operator()
accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b)
Definition Grid_gpu_vec.h:437

Grid::Optimization::Div::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_vec.h:446

Grid::Optimization::Div::operator()
accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b)
Definition Grid_gpu_vec.h:434

Grid::Optimization::Div::operator()
accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b)
Definition Grid_gpu_vec.h:440

Grid::Optimization::Exchange::ExchangeN
static accelerator_inline void ExchangeN(GpuVector< _N, _datum > &out1, GpuVector< _N, _datum > &out2, GpuVector< _N, _datum > &in1, GpuVector< _N, _datum > &in2)
Definition Grid_gpu_rrii.h:669

Grid::Optimization::Exchange::Exchange1
static accelerator_inline void Exchange1(vec &out1, vec &out2, vec &in1, vec &in2)
Definition Grid_gpu_vec.h:683

Grid::Optimization::Exchange::Exchange3
static accelerator_inline void Exchange3(vec &out1, vec &out2, vec &in1, vec &in2)
Definition Grid_gpu_vec.h:691

Grid::Optimization::Exchange::ExchangeN
static accelerator_inline void ExchangeN(vec &out1, vec &out2, vec &in1, vec &in2)
Definition Grid_gpu_vec.h:667

Grid::Optimization::Exchange::Exchange0
static accelerator_inline void Exchange0(vec &out1, vec &out2, vec &in1, vec &in2)
Definition Grid_gpu_vec.h:679

Grid::Optimization::Exchange::Exchange2
static accelerator_inline void Exchange2(vec &out1, vec &out2, vec &in1, vec &in2)
Definition Grid_gpu_vec.h:687

Grid::Optimization::MaddRealPart
Definition Grid_gpu_rrii.h:381

Grid::Optimization::MaddRealPart::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b, GpuVectorCD c)
Definition Grid_gpu_vec.h:392

Grid::Optimization::MaddRealPart::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b, GpuVectorCF c)
Definition Grid_gpu_vec.h:384

Grid::Optimization::MultComplex
Definition Grid_gpu_rrii.h:402

Grid::Optimization::MultComplex::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_vec.h:407

Grid::Optimization::MultComplex::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_vec.h:404

Grid::Optimization::MultRealPart
Definition Grid_gpu_rrii.h:360

Grid::Optimization::MultRealPart::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_vec.h:365

Grid::Optimization::MultRealPart::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_vec.h:373

Grid::Optimization::Mult
Definition Grid_gpu_rrii.h:412

Grid::Optimization::Mult::operator()
accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b)
Definition Grid_gpu_vec.h:427

Grid::Optimization::Mult::operator()
accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b)
Definition Grid_gpu_vec.h:424

Grid::Optimization::Mult::mac
accelerator_inline void mac(GpuVectorRF &a, GpuVectorRF b, GpuVectorRF c)
Definition Grid_gpu_vec.h:413

Grid::Optimization::Mult::mac
accelerator_inline void mac(GpuVectorRD &a, GpuVectorRD b, GpuVectorRD c)
Definition Grid_gpu_vec.h:416

Grid::Optimization::Mult::operator()
accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b)
Definition Grid_gpu_vec.h:420

Grid::Optimization::Permute::Permute0
static accelerator_inline vec Permute0(vec in)
Definition Grid_gpu_vec.h:543

Grid::Optimization::Permute::Permute1
static accelerator_inline vec Permute1(vec in)
Definition Grid_gpu_vec.h:544

Grid::Optimization::Permute::PermuteN
static accelerator_inline vec PermuteN(vec in)
Definition Grid_gpu_vec.h:534

Grid::Optimization::Permute::Permute2
static accelerator_inline vec Permute2(vec in)
Definition Grid_gpu_vec.h:545

Grid::Optimization::Permute::PermuteN
static accelerator_inline GpuVector< _N, _datum > PermuteN(GpuVector< _N, _datum > &in)
Definition Grid_gpu_rrii.h:524

Grid::Optimization::Permute::Permute3
static accelerator_inline vec Permute3(vec in)
Definition Grid_gpu_vec.h:546

Grid::Optimization::PrecisionChange::DtoH
static accelerator_inline GpuVectorRH DtoH(GpuVectorRD a, GpuVectorRD b, GpuVectorRD c, GpuVectorRD d)
Definition Grid_gpu_vec.h:650

Grid::Optimization::PrecisionChange::DtoH
static accelerator_inline GpuVectorCH DtoH(GpuVectorCD a, GpuVectorCD b, GpuVectorCD c, GpuVectorCD d)
Definition Grid_gpu_vec.h:638

Grid::Optimization::PrecisionChange::HtoS
static accelerator_inline void HtoS(GpuVectorCH h, GpuVectorCF &sa, GpuVectorCF &sb)
Definition Grid_gpu_vec.h:566

Grid::Optimization::PrecisionChange::DtoS
static accelerator_inline GpuVectorRF DtoS(GpuVectorRD a, GpuVectorRD b)
Definition Grid_gpu_vec.h:617

Grid::Optimization::PrecisionChange::HtoD
static accelerator_inline void HtoD(GpuVectorRH h, GpuVectorRD &a, GpuVectorRD &b, GpuVectorRD &c, GpuVectorRD &d)
Definition Grid_gpu_vec.h:656

Grid::Optimization::PrecisionChange::HtoS
static accelerator_inline void HtoS(GpuVectorRH h, GpuVectorRF &sa, GpuVectorRF &sb)
Definition Grid_gpu_vec.h:584

Grid::Optimization::PrecisionChange::DtoS
static accelerator_inline GpuVectorCF DtoS(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_vec.h:595

Grid::Optimization::PrecisionChange::HtoD
static accelerator_inline void HtoD(GpuVectorCH h, GpuVectorCD &a, GpuVectorCD &b, GpuVectorCD &c, GpuVectorCD &d)
Definition Grid_gpu_vec.h:644

Grid::Optimization::PrecisionChange::StoD
static accelerator_inline void StoD(GpuVectorRF h, GpuVectorRD &sa, GpuVectorRD &sb)
Definition Grid_gpu_vec.h:627

Grid::Optimization::PrecisionChange::StoH
static accelerator_inline GpuVectorRH StoH(GpuVectorRF a, GpuVectorRF b)
Definition Grid_gpu_vec.h:575

Grid::Optimization::PrecisionChange::StoH
static accelerator_inline GpuVectorCH StoH(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_vec.h:555

Grid::Optimization::PrecisionChange::StoD
static accelerator_inline void StoD(GpuVectorCF h, GpuVectorCD &sa, GpuVectorCD &sb)
Definition Grid_gpu_vec.h:607

Grid::Optimization::Reduce
Definition Grid_gpu_rrii.h:310

Grid::Optimization::Reduce::operator()
accelerator_inline Out_type operator()(In_type in)
Definition Grid_gpu_vec.h:317

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorCH rotate(GpuVectorCH in, int n)
Definition Grid_gpu_vec.h:725

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorI rotate(GpuVectorI in, int n)
Definition Grid_gpu_vec.h:724

Grid::Optimization::Rotate::SIMD_CDtype
GpuVectorCD SIMD_CDtype
Definition Grid_gpu_rrii.h:769

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorRF rotate(GpuVectorRF in, int n)
Definition Grid_gpu_vec.h:722

Grid::Optimization::Rotate::rotate_template
static accelerator_inline GpuComplexVector< _N, _datum > rotate_template(GpuComplexVector< _N, _datum > &in, int n)
Definition Grid_gpu_rrii.h:740

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorCF rotate(GpuVectorCF in, int n)
Definition Grid_gpu_vec.h:726

Grid::Optimization::Rotate::SIMD_CFtype
GpuVectorCF SIMD_CFtype
Definition Grid_gpu_rrii.h:768

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorRH rotate(GpuVectorRH in, int n)
Definition Grid_gpu_rrii.h:771

Grid::Optimization::Rotate::SIMD_Dtype
GpuVectorRD SIMD_Dtype
Definition Grid_gpu_rrii.h:764

Grid::Optimization::Rotate::SIMD_Ftype
GpuVectorRF SIMD_Ftype
Definition Grid_gpu_rrii.h:763

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorRD rotate(GpuVectorRD in, int n)
Definition Grid_gpu_vec.h:723

Grid::Optimization::Rotate::rotate
static accelerator_inline GpuVectorCD rotate(GpuVectorCD in, int n)
Definition Grid_gpu_vec.h:727

Grid::Optimization::Rotate::SIMD_Htype
GpuVectorRH SIMD_Htype
Definition Grid_gpu_rrii.h:762

Grid::Optimization::Rotate::SIMD_Itype
GpuVectorI SIMD_Itype
Definition Grid_gpu_rrii.h:765

Grid::Optimization::Rotate::rotate_template
static accelerator_inline vec rotate_template(vec in, int n)
Definition Grid_gpu_vec.h:704

Grid::Optimization::Rotate::SIMD_CHtype
GpuVectorCH SIMD_CHtype
Definition Grid_gpu_rrii.h:767

Grid::Optimization::Rotate::tRotate
static accelerator_inline vec tRotate(vec in)
Definition Grid_gpu_vec.h:699

Grid::Optimization::Sub
Definition Grid_gpu_rrii.h:342

Grid::Optimization::Sub::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_vec.h:356

Grid::Optimization::Sub::operator()
accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b)
Definition Grid_gpu_vec.h:347

Grid::Optimization::Sub::operator()
accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b)
Definition Grid_gpu_vec.h:350

Grid::Optimization::Sub::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_vec.h:353

Grid::Optimization::Sub::operator()
accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b)
Definition Grid_gpu_vec.h:359

Grid::Optimization::Sum
Definition Grid_gpu_rrii.h:323

Grid::Optimization::Sum::operator()
accelerator_inline GpuVectorI operator()(GpuVectorI a, GpuVectorI b)
Definition Grid_gpu_vec.h:341

Grid::Optimization::Sum::operator()
accelerator_inline GpuVectorRD operator()(GpuVectorRD a, GpuVectorRD b)
Definition Grid_gpu_vec.h:332

Grid::Optimization::Sum::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD a, GpuVectorCD b)
Definition Grid_gpu_vec.h:338

Grid::Optimization::Sum::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF a, GpuVectorCF b)
Definition Grid_gpu_vec.h:335

Grid::Optimization::Sum::operator()
accelerator_inline GpuVectorRF operator()(GpuVectorRF a, GpuVectorRF b)
Definition Grid_gpu_vec.h:329

Grid::Optimization::TimesI
Definition Grid_gpu_rrii.h:499

Grid::Optimization::TimesI::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD in)
Definition Grid_gpu_vec.h:520

Grid::Optimization::TimesI::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF in)
Definition Grid_gpu_vec.h:511

Grid::Optimization::TimesMinusI
Definition Grid_gpu_rrii.h:477

Grid::Optimization::TimesMinusI::operator()
accelerator_inline GpuVectorCF operator()(GpuVectorCF in)
Definition Grid_gpu_vec.h:489

Grid::Optimization::TimesMinusI::operator()
accelerator_inline GpuVectorCD operator()(GpuVectorCD in)
Definition Grid_gpu_vec.h:498

Grid::Optimization::Vset
Definition Grid_gpu_rrii.h:259

Grid::Optimization::Vset::operator()
accelerator_inline GpuVectorCF operator()(Grid::ComplexF *a)
Definition Grid_gpu_vec.h:267

Grid::Optimization::Vset::operator()
accelerator_inline GpuVectorRD operator()(double *a)
Definition Grid_gpu_vec.h:294

Grid::Optimization::Vset::operator()
accelerator_inline GpuVectorCD operator()(Grid::ComplexD *a)
Definition Grid_gpu_vec.h:276

Grid::Optimization::Vset::operator()
accelerator_inline GpuVectorRF operator()(float *a)
Definition Grid_gpu_vec.h:285

Grid::Optimization::Vset::operator()
accelerator_inline GpuVectorI operator()(Integer *a)
Definition Grid_gpu_vec.h:303

Grid::Optimization::Vsplat
Definition Grid_gpu_rrii.h:188

Grid::Optimization::Vsplat::operator()
accelerator_inline GpuVectorCF operator()(float a, float b)
Definition Grid_gpu_vec.h:208

Grid::Optimization::Vsplat::operator()
accelerator_inline GpuVectorI operator()(Integer a)
Definition Grid_gpu_vec.h:240

Grid::Optimization::Vsplat::operator()
accelerator_inline GpuVectorRD operator()(double a)
Definition Grid_gpu_vec.h:232

Grid::Optimization::Vsplat::operator()
accelerator_inline GpuVectorCD operator()(double a, double b)
Definition Grid_gpu_vec.h:224

Grid::Optimization::Vsplat::operator()
accelerator_inline GpuVectorRF operator()(float a)
Definition Grid_gpu_vec.h:216

Grid::Optimization::Vstore
Definition Grid_gpu_rrii.h:233

Grid::Optimization::Vstore::operator()
accelerator_inline void operator()(GpuVector< N, datum > a, P *Fp)
Definition Grid_gpu_vec.h:251

Grid::Optimization::Vstream
Definition Grid_gpu_rrii.h:246

Grid::Optimization::Vstream::operator()
accelerator_inline void operator()(P *F, GpuVector< N, datum > a)
Definition Grid_gpu_vec.h:259

Grid::double2
Definition Grid_gpu_vec.h:46

Grid::double2::x
double x
Definition Grid_gpu_vec.h:46

Grid::double2::y
double y
Definition Grid_gpu_vec.h:46

Grid::float2
Definition Grid_gpu_vec.h:45

Grid::float2::x
float x
Definition Grid_gpu_vec.h:45

Grid::float2::y
float y
Definition Grid_gpu_vec.h:45

Grid::half2
Definition Grid_gpu_vec.h:44

Grid::half2::x
half x
Definition Grid_gpu_vec.h:44

Grid::half2::y
half y
Definition Grid_gpu_vec.h:44

Grid::half
Definition Grid_gpu_rrii.h:43

Grid_half
Definition Grid_vector_types.h:43

Grid_half::x
uint16_t x
Definition Grid_vector_types.h:46

MaddRealPart
Definition Grid_a64fx-2.h:413

MultComplex
Definition Grid_a64fx-2.h:431

MultRealPart
Definition Grid_a64fx-2.h:395

Mult
Definition Grid_a64fx-2.h:369

Permute
Definition Grid_a64fx-2.h:711

PrecisionChange
Definition Grid_a64fx-2.h:540

Reduce
Definition Grid_a64fx-2.h:838

Rotate
Definition Grid_a64fx-2.h:791

Sub
Definition Grid_a64fx-2.h:355

Sum
Definition Grid_a64fx-2.h:341

TimesI
Definition Grid_a64fx-2.h:520

TimesMinusI
Definition Grid_a64fx-2.h:501

Vset
Definition Grid_a64fx-2.h:313

Vstore
Definition Grid_a64fx-2.h:292

Vstream
Definition Grid_a64fx-2.h:302

vec
Definition Grid_a64fx-2.h:91

vec::v
T v[W< T >::r]
Definition Grid_a64fx-2.h:92