[catacomb] / math / mpmont.c

/* -*-c-*-
 *
 * Montgomery reduction
 *
 * (c) 1999 Straylight/Edgeware
 */

/*----- Licensing notice --------------------------------------------------*
 *
 * This file is part of Catacomb.
 *
 * Catacomb is free software; you can redistribute it and/or modify
 * it under the terms of the GNU Library General Public License as
 * published by the Free Software Foundation; either version 2 of the
 * License, or (at your option) any later version.
 *
 * Catacomb is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 * GNU Library General Public License for more details.
 *
 * You should have received a copy of the GNU Library General Public
 * License along with Catacomb; if not, write to the Free
 * Software Foundation, Inc., 59 Temple Place - Suite 330, Boston,
 * MA 02111-1307, USA.
 */

/*----- Header files ------------------------------------------------------*/

#include "config.h"
#include "dispatch.h"
#include "mp.h"
#include "mpmont.h"

/*----- Tweakables --------------------------------------------------------*/

/* --- @MPMONT_DISABLE@ --- *
 *
 * Replace all the clever Montgomery reduction with good old-fashioned long
 * division.
 */

/* #define MPMONT_DISABLE */

#define MPMONT_KTHRESH (16*MPK_THRESH)

/*----- Low-level implementation ------------------------------------------*/

#ifndef MPMONT_DISABLE

/* --- @redccore@ --- *
 *
 * Arguments:	@mpw *dv, *dvl@ = base and limit of source/destination
 *		@const mpw *mv@ = base of modulus %$m$%
 *		@size_t n@ = length of modulus
 *		@const mpw *mi@ = base of REDC coefficient %$m'$%
 *
 * Returns:	---
 *
 * Use:		Let %$a$% be the input operand.  Store in %$d$% the value
 *		%$a + (m' a \bmod R) m$%.  The destination has space for at
 *		least %$2 n + 1$% words of result.
 */

CPU_DISPATCH(static, (void), void, redccore,
	     (mpw *dv, mpw *dvl, const mpw *mv, size_t n, const mpw *mi),
	     (dv, dvl, mv, n, mi), pick_redccore, simple_redccore);

static void simple_redccore(mpw *dv, mpw *dvl, const mpw *mv,
			    size_t n, const mpw *mi)
{
  mpw mi0 = *mi;
  size_t i;

  for (i = 0; i < n; i++) {
    MPX_UMLAN(dv, dvl, mv, mv + n, MPW(*dv*mi0));
    dv++;
  }
}

#define MAYBE_REDC4(impl)						\
  extern void mpxmont_redc4_##impl(mpw *dv, mpw *dvl, const mpw *mv,	\
				   size_t n, const mpw *mi);		\
  static void maybe_redc4_##impl(mpw *dv, mpw *dvl, const mpw *mv,	\
				 size_t n, const mpw *mi)		\
  {									\
    if (n%4) simple_redccore(dv, dvl, mv, n, mi);			\
    else mpxmont_redc4_##impl(dv, dvl, mv, n, mi);			\
  }

#if CPUFAM_X86
  MAYBE_REDC4(x86_sse2)
#endif

static redccore__functype *pick_redccore(void)
{
#if CPUFAM_X86
  DISPATCH_PICK_COND(mpmont_reduce, maybe_redc4_x86_sse2,
		     cpu_feature_p(CPUFEAT_X86_SSE2));
#endif
  DISPATCH_PICK_FALLBACK(mpmont_reduce, simple_redccore);
}

/* --- @redccore@ --- *
 *
 * Arguments:	@mpw *dv, *dvl@ = base and limit of source/destination
 *		@const mpw *av, *avl@ = base and limit of first multiplicand
 *		@const mpw *bv, *bvl@ = base and limit of second multiplicand
 *		@const mpw *mv@ = base of modulus %$m$%
 *		@size_t n@ = length of modulus
 *		@const mpw *mi@ = base of REDC coefficient %$m'$%
 *
 * Returns:	---
 *
 * Use:		Let %$a$% and %$b$% be the multiplicands.  Let %$w = a b$%.
 *		Store in %$d$% the value %$a b + (m' a b \bmod R) m$%.
 */

CPU_DISPATCH(static, (void), void, mulcore,
	     (mpw *dv, mpw *dvl, const mpw *av, const mpw *avl,
	      const mpw *bv, const mpw *bvl, const mpw *mv,
	      size_t n, const mpw *mi),
	     (dv, dvl, av, avl, bv, bvl, mv, n, mi),
	     pick_mulcore, simple_mulcore);

static void simple_mulcore(mpw *dv, mpw *dvl,
			   const mpw *av, const mpw *avl,
			   const mpw *bv, const mpw *bvl,
			   const mpw *mv, size_t n, const mpw *mi)
{
  mpw ai, b0, y, mi0 = *mi;
  const mpw *tv, *tvl;
  const mpw *mvl = mv + n;
  size_t i = 0;

  /* --- Initial setup --- */

  MPX_ZERO(dv, dvl);
  if (avl - av > bvl - bv) {
    tv = av; av = bv; bv = tv;
    tvl = avl; avl = bvl; bvl = tvl;
  }
  b0 = *bv;

  /* --- Multiply, until we run out of multiplicand --- */

  while (i < n && av < avl) {
    ai = *av++;
    y = MPW((*dv + ai*b0)*mi0);
    MPX_UMLAN(dv, dvl, bv, bvl, ai);
    MPX_UMLAN(dv, dvl, mv, mvl, y);
    dv++; i++;
  }

  /* --- Continue reducing until we run out of modulus --- */

  while (i < n) {
    y = MPW(*dv*mi0);
    MPX_UMLAN(dv, dvl, mv, mvl, y);
    dv++; i++;
  }
}

#define MAYBE_MUL4(impl)						\
  extern void mpxmont_mul4_##impl(mpw *dv,				\
				  const mpw *av, const mpw *bv,		\
				  const mpw *mv,			\
				  size_t n, const mpw *mi);		\
  static void maybe_mul4_##impl(mpw *dv, mpw *dvl,			\
			   const mpw *av, const mpw *avl,		\
			   const mpw *bv, const mpw *bvl,		\
			   const mpw *mv, size_t n, const mpw *mi)	\
  {									\
    size_t an = avl - av, bn = bvl - bv;				\
    if (n%4 || an != n || bn != n)					\
      simple_mulcore(dv, dvl, av, avl, bv, bvl, mv, n, mi);		\
    else {								\
      mpxmont_mul4_##impl(dv, av, bv, mv, n, mi);			\
      MPX_ZERO(dv + 2*n + 1, dvl);					\
    }									\
  }

#if CPUFAM_X86
  MAYBE_MUL4(x86_sse2)
#endif

static mulcore__functype *pick_mulcore(void)
{
#if CPUFAM_X86
  DISPATCH_PICK_COND(mpmont_mul, maybe_mul4_x86_sse2,
		     cpu_feature_p(CPUFEAT_X86_SSE2));
#endif
  DISPATCH_PICK_FALLBACK(mpmont_mul, simple_mulcore);
}

/* --- @finish@ --- *
 *
 * Arguments:	@mpmont *mm@ = pointer to a Montgomery reduction context
 *		*mp *d@ = pointer to mostly-reduced operand
 *
 * Returns:	---
 *
 * Use:		Applies the finishing touches to Montgomery reduction.  The
 *		operand @d@ is a multiple of %$R%$ at this point, so it needs
 *		to be shifted down; the result might need a further
 *		subtraction to get it into the right interval; and we may
 *		need to do an additional subtraction if %$d$% is negative.
 */

static void finish(mpmont *mm, mp *d)
{
  mpw *dv = d->v, *dvl = d->vl;
  size_t n = mm->n;

  memmove(dv, dv + n, MPWS(dvl - (dv + n)));
  dvl -= n;

  if (MPX_UCMP(dv, dvl, >=, mm->m->v, mm->m->vl))
    mpx_usub(dv, dvl, dv, dvl, mm->m->v, mm->m->vl);

  if (d->f & MP_NEG) {
    mpx_usub(dv, dvl, mm->m->v, mm->m->vl, dv, dvl);
    d->f &= ~MP_NEG;
  }

  d->vl = dvl;
  MP_SHRINK(d);
}

#endif

/*----- Reduction and multiplication --------------------------------------*/

/* --- @mpmont_create@ --- *
 *
 * Arguments:	@mpmont *mm@ = pointer to Montgomery reduction context
 *		@mp *m@ = modulus to use
 *
 * Returns:	Zero on success, nonzero on error.
 *
 * Use:		Initializes a Montgomery reduction context ready for use.
 *		The argument @m@ must be a positive odd integer.
 */

#ifdef MPMONT_DISABLE

int mpmont_create(mpmont *mm, mp *m)
{
  mp_shrink(m);
  mm->m = MP_COPY(m);
  mm->r = MP_ONE;
  mm->r2 = MP_ONE;
  mm->mi = MP_ONE;
  return (0);
}

#else

int mpmont_create(mpmont *mm, mp *m)
{
  size_t n = MP_LEN(m);
  mp *r2 = mp_new(2 * n + 1, 0);
  mp r;

  /* --- Take a copy of the modulus --- */

 if (!MP_POSP(m) || !MP_ODDP(m))
   return (-1);
  mm->m = MP_COPY(m);

  /* --- Determine %$R^2$% --- */

  mm->n = n;
  MPX_ZERO(r2->v, r2->vl - 1);
  r2->vl[-1] = 1;

  /* --- Find the magic value @mi@ --- */

  mp_build(&r, r2->v + n, r2->vl);
  mm->mi = mp_modinv(MP_NEW, m, &r);
  mm->mi = mp_sub(mm->mi, &r, mm->mi);
  MP_ENSURE(mm->mi, n);

  /* --- Discover the values %$R \bmod m$% and %$R^2 \bmod m$% --- */

  mm->r2 = MP_NEW;
  mp_div(0, &mm->r2, r2, m);
  mm->r = mpmont_reduce(mm, MP_NEW, mm->r2);
  MP_DROP(r2);
  return (0);
}

#endif

/* --- @mpmont_destroy@ --- *
 *
 * Arguments:	@mpmont *mm@ = pointer to a Montgomery reduction context
 *
 * Returns:	---
 *
 * Use:		Disposes of a context when it's no longer of any use to
 *		anyone.
 */

void mpmont_destroy(mpmont *mm)
{
  MP_DROP(mm->m);
  MP_DROP(mm->r);
  MP_DROP(mm->r2);
  MP_DROP(mm->mi);
}

/* --- @mpmont_reduce@ --- *
 *
 * Arguments:	@mpmont *mm@ = pointer to Montgomery reduction context
 *		@mp *d@ = destination
 *		@mp *a@ = source, assumed positive
 *
 * Returns:	Result, %$a R^{-1} \bmod m$%.
 */

#ifdef MPMONT_DISABLE

mp *mpmont_reduce(mpmont *mm, mp *d, mp *a)
{
  mp_div(0, &d, a, mm->m);
  return (d);
}

#else

mp *mpmont_reduce(mpmont *mm, mp *d, mp *a)
{
  size_t n = mm->n;

  /* --- Check for serious Karatsuba reduction --- */

  if (n > MPMONT_KTHRESH) {
    mp al;
    mpw *vl;
    mp *u;

    if (MP_LEN(a) >= n) vl = a->v + n;
    else vl = a->vl;
    mp_build(&al, a->v, vl);
    u = mp_mul(MP_NEW, &al, mm->mi);
    if (MP_LEN(u) > n) u->vl = u->v + n;
    u = mp_mul(u, u, mm->m);
    d = mp_add(d, a, u);
    MP_ENSURE(d, n);
    mp_drop(u);
  }

  /* --- Otherwise do it the hard way --- */

  else {
    a = MP_COPY(a);
    if (d) MP_DROP(d);
    d = a;
    MP_DEST(d, 2*mm->n + 1, a->f);
    redccore(d->v, d->vl, mm->m->v, mm->n, mm->mi->v);
  }

  /* --- Wrap everything up --- */

  finish(mm, d);
  return (d);
}

#endif

/* --- @mpmont_mul@ --- *
 *
 * Arguments:	@mpmont *mm@ = pointer to Montgomery reduction context
 *		@mp *d@ = destination
 *		@mp *a, *b@ = sources, assumed positive
 *
 * Returns:	Result, %$a b R^{-1} \bmod m$%.
 */

#ifdef MPMONT_DISABLE

mp *mpmont_mul(mpmont *mm, mp *d, mp *a, mp *b)
{
  d = mp_mul(d, a, b);
  mp_div(0, &d, d, mm->m);
  return (d);
}

#else

mp *mpmont_mul(mpmont *mm, mp *d, mp *a, mp *b)
{
  size_t n = mm->n;

  if (n > MPMONT_KTHRESH) {
    d = mp_mul(d, a, b);
    d = mpmont_reduce(mm, d, d);
  } else {
    a = MP_COPY(a); b = MP_COPY(b);
    MP_DEST(d, 2*n + 1, a->f | b->f | MP_UNDEF);
    mulcore(d->v, d->vl, a->v, a->vl, b->v, b->vl,
	    mm->m->v, mm->n, mm->mi->v);
    d->f = ((a->f | b->f) & MP_BURN) | ((a->f ^ b->f) & MP_NEG);
    finish(mm, d);
    MP_DROP(a); MP_DROP(b);
  }

  return (d);
}

#endif

/*----- Test rig ----------------------------------------------------------*/

#ifdef TEST_RIG

static int tcreate(dstr *v)
{
  mp *m = *(mp **)v[0].buf;
  mp *mi = *(mp **)v[1].buf;
  mp *r = *(mp **)v[2].buf;
  mp *r2 = *(mp **)v[3].buf;

  mpmont mm;
  int ok = 1;

  mpmont_create(&mm, m);

  if (mm.mi->v[0] != mi->v[0]) {
    fprintf(stderr, "\n*** bad mi: found %lu, expected %lu",
	    (unsigned long)mm.mi->v[0], (unsigned long)mi->v[0]);
    fputs("\nm = ", stderr); mp_writefile(m, stderr, 10);
    fputc('\n', stderr);
    ok = 0;
  }

  if (!MP_EQ(mm.r, r)) {
    fputs("\n*** bad r", stderr);
    fputs("\nm = ", stderr); mp_writefile(m, stderr, 10);
    fputs("\nexpected ", stderr); mp_writefile(r, stderr, 10);
    fputs("\n	found ", stderr); mp_writefile(mm.r, stderr, 10);
    fputc('\n', stderr);
    ok = 0;
  }

  if (!MP_EQ(mm.r2, r2)) {
    fputs("\n*** bad r2", stderr);
    fputs("\nm = ", stderr); mp_writefile(m, stderr, 10);
    fputs("\nexpected ", stderr); mp_writefile(r2, stderr, 10);
    fputs("\n	found ", stderr); mp_writefile(mm.r2, stderr, 10);
    fputc('\n', stderr);
    ok = 0;
  }

  MP_DROP(m);
  MP_DROP(mi);
  MP_DROP(r);
  MP_DROP(r2);
  mpmont_destroy(&mm);
  assert(mparena_count(MPARENA_GLOBAL) == 0);
  return (ok);
}

static int tmul(dstr *v)
{
  mp *m = *(mp **)v[0].buf;
  mp *a = *(mp **)v[1].buf;
  mp *b = *(mp **)v[2].buf;
  mp *r = *(mp **)v[3].buf;
  int ok = 1;

  mpmont mm;
  mpmont_create(&mm, m);

  {
    mp *qr = mp_mul(MP_NEW, a, b);
    mp_div(0, &qr, qr, m);

    if (!MP_EQ(qr, r)) {
      fputs("\n*** classical modmul failed", stderr);
      fputs("\n m = ", stderr); mp_writefile(m, stderr, 10);
      fputs("\n a = ", stderr); mp_writefile(a, stderr, 10);
      fputs("\n b = ", stderr); mp_writefile(b, stderr, 10);
      fputs("\n r = ", stderr); mp_writefile(r, stderr, 10);
      fputs("\nqr = ", stderr); mp_writefile(qr, stderr, 10);
      fputc('\n', stderr);
      ok = 0;
    }

    mp_drop(qr);
  }

  {
    mp *ar = mpmont_mul(&mm, MP_NEW, a, mm.r2);
    mp *br = mpmont_mul(&mm, MP_NEW, b, mm.r2);
    mp *mr = mpmont_mul(&mm, MP_NEW, ar, br);
    mr = mpmont_reduce(&mm, mr, mr);
    if (!MP_EQ(mr, r)) {
      fputs("\n*** montgomery modmul failed", stderr);
      fputs("\n m = ", stderr); mp_writefile(m, stderr, 10);
      fputs("\n a = ", stderr); mp_writefile(a, stderr, 10);
      fputs("\n b = ", stderr); mp_writefile(b, stderr, 10);
      fputs("\n r = ", stderr); mp_writefile(r, stderr, 10);
      fputs("\nmr = ", stderr); mp_writefile(mr, stderr, 10);
      fputc('\n', stderr);
      ok = 0;
    }
    MP_DROP(ar); MP_DROP(br);
    mp_drop(mr);
  }


  MP_DROP(m);
  MP_DROP(a);
  MP_DROP(b);
  MP_DROP(r);
  mpmont_destroy(&mm);
  assert(mparena_count(MPARENA_GLOBAL) == 0);
  return ok;
}

static test_chunk tests[] = {
  { "create", tcreate, { &type_mp, &type_mp, &type_mp, &type_mp, 0 } },
  { "mul", tmul, { &type_mp, &type_mp, &type_mp, &type_mp, 0 } },
  { 0, 0, { 0 } },
};

int main(int argc, char *argv[])
{
  sub_init();
  test_run(argc, argv, tests, SRCDIR "/t/mpmont");
  return (0);
}

#endif

/*----- That's all, folks -------------------------------------------------*/
Commit	Line	Data
d3409d5e	1	/* --c--
d3409d5e	2	*
d3409d5e	3	* Montgomery reduction
	4	*
	5	* (c) 1999 Straylight/Edgeware
	6	*/
	7
45c0fd36	8	/----- Licensing notice --------------------------------------------------
d3409d5e	9	*
	10	* This file is part of Catacomb.
	11	*
	12	* Catacomb is free software; you can redistribute it and/or modify
	13	* it under the terms of the GNU Library General Public License as
	14	* published by the Free Software Foundation; either version 2 of the
	15	* License, or (at your option) any later version.
45c0fd36	16	*
d3409d5e	17	* Catacomb is distributed in the hope that it will be useful,
	18	* but WITHOUT ANY WARRANTY; without even the implied warranty of
	19	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
	20	* GNU Library General Public License for more details.
45c0fd36	21	*
d3409d5e	22	* You should have received a copy of the GNU Library General Public
	23	* License along with Catacomb; if not, write to the Free
	24	* Software Foundation, Inc., 59 Temple Place - Suite 330, Boston,
	25	* MA 02111-1307, USA.
	26	*/
	27
d3409d5e	28	/----- Header files ------------------------------------------------------/
d3409d5e	29
444083ae MW	30	#include "config.h"
444083ae MW	31	#include "dispatch.h"
d3409d5e	32	#include "mp.h"
	33	#include "mpmont.h"
	34
52e4b041	35	/----- Tweakables --------------------------------------------------------/
	36
	37	/* --- @MPMONT_DISABLE@ --- *
	38	*
	39	* Replace all the clever Montgomery reduction with good old-fashioned long
	40	* division.
	41	*/
	42
	43	/* #define MPMONT_DISABLE */
	44
d6b9dc04 MW	45	#define MPMONT_KTHRESH (16*MPK_THRESH)
d6b9dc04 MW	46
0e70bd46 MW	47	/----- Low-level implementation ------------------------------------------/
	48
	49	#ifndef MPMONT_DISABLE
	50
	51	/* --- @redccore@ --- *
	52	*
	53	* Arguments: @mpw dv, dvl@ = base and limit of source/destination
	54	* @const mpw *mv@ = base of modulus %$m$%
	55	* @size_t n@ = length of modulus
	56	* @const mpw *mi@ = base of REDC coefficient %$m'$%
	57	*
	58	* Returns: ---
	59	*
	60	* Use: Let %$a$% be the input operand. Store in %$d$% the value
	61	* %$a + (m' a \bmod R) m$%. The destination has space for at
	62	* least %$2 n + 1$% words of result.
	63	*/
	64
444083ae MW	65	CPU_DISPATCH(static, (void), void, redccore,
	66	(mpw dv, mpw dvl, const mpw mv, size_t n, const mpw mi),
	67	(dv, dvl, mv, n, mi), pick_redccore, simple_redccore);
	68
	69	static void simple_redccore(mpw dv, mpw dvl, const mpw *mv,
	70	size_t n, const mpw *mi)
0e70bd46 MW	71	{
	72	mpw mi0 = *mi;
	73	size_t i;
	74
	75	for (i = 0; i < n; i++) {
	76	MPX_UMLAN(dv, dvl, mv, mv + n, MPW(dvmi0));
	77	dv++;
	78	}
	79	}
	80
444083ae MW	81	#define MAYBE_REDC4(impl) \
	82	extern void mpxmont_redc4_##impl(mpw dv, mpw dvl, const mpw *mv, \
	83	size_t n, const mpw *mi); \
	84	static void maybe_redc4_##impl(mpw dv, mpw dvl, const mpw *mv, \
	85	size_t n, const mpw *mi) \
	86	{ \
	87	if (n%4) simple_redccore(dv, dvl, mv, n, mi); \
	88	else mpxmont_redc4_##impl(dv, dvl, mv, n, mi); \
	89	}
	90
	91	#if CPUFAM_X86
	92	MAYBE_REDC4(x86_sse2)
	93	#endif
	94
	95	static redccore__functype *pick_redccore(void)
	96	{
	97	#if CPUFAM_X86
	98	DISPATCH_PICK_COND(mpmont_reduce, maybe_redc4_x86_sse2,
	99	cpu_feature_p(CPUFEAT_X86_SSE2));
	100	#endif
	101	DISPATCH_PICK_FALLBACK(mpmont_reduce, simple_redccore);
	102	}
	103
0e70bd46 MW	104	/* --- @redccore@ --- *
	105	*
	106	* Arguments: @mpw dv, dvl@ = base and limit of source/destination
	107	* @const mpw av, avl@ = base and limit of first multiplicand
	108	* @const mpw bv, bvl@ = base and limit of second multiplicand
	109	* @const mpw *mv@ = base of modulus %$m$%
	110	* @size_t n@ = length of modulus
	111	* @const mpw *mi@ = base of REDC coefficient %$m'$%
	112	*
	113	* Returns: ---
	114	*
	115	* Use: Let %$a$% and %$b$% be the multiplicands. Let %$w = a b$%.
	116	* Store in %$d$% the value %$a b + (m' a b \bmod R) m$%.
	117	*/
	118
444083ae MW	119	CPU_DISPATCH(static, (void), void, mulcore,
	120	(mpw dv, mpw dvl, const mpw av, const mpw avl,
	121	const mpw bv, const mpw bvl, const mpw *mv,
	122	size_t n, const mpw *mi),
	123	(dv, dvl, av, avl, bv, bvl, mv, n, mi),
	124	pick_mulcore, simple_mulcore);
	125
	126	static void simple_mulcore(mpw dv, mpw dvl,
	127	const mpw av, const mpw avl,
	128	const mpw bv, const mpw bvl,
	129	const mpw mv, size_t n, const mpw mi)
0e70bd46 MW	130	{
	131	mpw ai, b0, y, mi0 = *mi;
	132	const mpw tv, tvl;
	133	const mpw *mvl = mv + n;
	134	size_t i = 0;
	135
	136	/* --- Initial setup --- */
	137
	138	MPX_ZERO(dv, dvl);
	139	if (avl - av > bvl - bv) {
	140	tv = av; av = bv; bv = tv;
	141	tvl = avl; avl = bvl; bvl = tvl;
	142	}
	143	b0 = *bv;
	144
	145	/* --- Multiply, until we run out of multiplicand --- */
	146
	147	while (i < n && av < avl) {
	148	ai = *av++;
	149	y = MPW((dv + aib0)*mi0);
	150	MPX_UMLAN(dv, dvl, bv, bvl, ai);
	151	MPX_UMLAN(dv, dvl, mv, mvl, y);
	152	dv++; i++;
	153	}
	154
	155	/* --- Continue reducing until we run out of modulus --- */
	156
	157	while (i < n) {
	158	y = MPW(dvmi0);
	159	MPX_UMLAN(dv, dvl, mv, mvl, y);
	160	dv++; i++;
	161	}
	162	}
	163
444083ae MW	164	#define MAYBE_MUL4(impl) \
	165	extern void mpxmont_mul4_##impl(mpw *dv, \
	166	const mpw av, const mpw bv, \
	167	const mpw *mv, \
	168	size_t n, const mpw *mi); \
	169	static void maybe_mul4_##impl(mpw dv, mpw dvl, \
	170	const mpw av, const mpw avl, \
	171	const mpw bv, const mpw bvl, \
	172	const mpw mv, size_t n, const mpw mi) \
	173	{ \
	174	size_t an = avl - av, bn = bvl - bv; \
	175	if (n%4 \|\| an != n \|\| bn != n) \
	176	simple_mulcore(dv, dvl, av, avl, bv, bvl, mv, n, mi); \
	177	else { \
	178	mpxmont_mul4_##impl(dv, av, bv, mv, n, mi); \
	179	MPX_ZERO(dv + 2*n + 1, dvl); \
	180	} \
	181	}
	182
	183	#if CPUFAM_X86
	184	MAYBE_MUL4(x86_sse2)
	185	#endif
	186
	187	static mulcore__functype *pick_mulcore(void)
	188	{
	189	#if CPUFAM_X86
	190	DISPATCH_PICK_COND(mpmont_mul, maybe_mul4_x86_sse2,
	191	cpu_feature_p(CPUFEAT_X86_SSE2));
	192	#endif
	193	DISPATCH_PICK_FALLBACK(mpmont_mul, simple_mulcore);
	194	}
	195
0e70bd46 MW	196	/* --- @finish@ --- *
	197	*
	198	* Arguments: @mpmont *mm@ = pointer to a Montgomery reduction context
	199	* mp d@ = pointer to mostly-reduced operand
	200	*
	201	* Returns: ---
	202	*
	203	* Use: Applies the finishing touches to Montgomery reduction. The
	204	* operand @d@ is a multiple of %$R%$ at this point, so it needs
	205	* to be shifted down; the result might need a further
	206	* subtraction to get it into the right interval; and we may
	207	* need to do an additional subtraction if %$d$% is negative.
	208	*/
	209
	210	static void finish(mpmont mm, mp d)
	211	{
	212	mpw dv = d->v, dvl = d->vl;
	213	size_t n = mm->n;
	214
	215	memmove(dv, dv + n, MPWS(dvl - (dv + n)));
	216	dvl -= n;
	217
	218	if (MPX_UCMP(dv, dvl, >=, mm->m->v, mm->m->vl))
	219	mpx_usub(dv, dvl, dv, dvl, mm->m->v, mm->m->vl);
	220
	221	if (d->f & MP_NEG) {
	222	mpx_usub(dv, dvl, mm->m->v, mm->m->vl, dv, dvl);
	223	d->f &= ~MP_NEG;
	224	}
	225
	226	d->vl = dvl;
	227	MP_SHRINK(d);
	228	}
	229
	230	#endif
	231
4640a0dd	232	/----- Reduction and multiplication --------------------------------------/
d3409d5e	233
	234	/* --- @mpmont_create@ --- *
	235	*
	236	* Arguments: @mpmont *mm@ = pointer to Montgomery reduction context
	237	* @mp *m@ = modulus to use
	238	*
f4535c64	239	* Returns: Zero on success, nonzero on error.
d3409d5e	240	*
d3409d5e	241	* Use: Initializes a Montgomery reduction context ready for use.
ef5f4810	242	* The argument @m@ must be a positive odd integer.
d3409d5e	243	*/
d3409d5e	244
52e4b041	245	#ifdef MPMONT_DISABLE
52e4b041	246
f4535c64	247	int mpmont_create(mpmont mm, mp m)
52e4b041	248	{
	249	mp_shrink(m);
	250	mm->m = MP_COPY(m);
	251	mm->r = MP_ONE;
	252	mm->r2 = MP_ONE;
f5f35081	253	mm->mi = MP_ONE;
f4535c64	254	return (0);
52e4b041	255	}
	256
	257	#else
	258
f4535c64	259	int mpmont_create(mpmont mm, mp m)
d3409d5e	260	{
f5f35081	261	size_t n = MP_LEN(m);
d34decd2	262	mp r2 = mp_new(2 n + 1, 0);
f5f35081	263	mp r;
f5f35081	264
d3409d5e	265	/* --- Take a copy of the modulus --- */
d3409d5e	266
f4535c64	267	if (!MP_POSP(m) \|\| !MP_ODDP(m))
f4535c64	268	return (-1);
d3409d5e	269	mm->m = MP_COPY(m);
d3409d5e	270
f5f35081	271	/* --- Determine %$R^2$% --- */
d3409d5e	272
f5f35081	273	mm->n = n;
	274	MPX_ZERO(r2->v, r2->vl - 1);
	275	r2->vl[-1] = 1;
d3409d5e	276
f5f35081	277	/* --- Find the magic value @mi@ --- */
	278
	279	mp_build(&r, r2->v + n, r2->vl);
b817bfc6	280	mm->mi = mp_modinv(MP_NEW, m, &r);
f5f35081	281	mm->mi = mp_sub(mm->mi, &r, mm->mi);
362c3d18	282	MP_ENSURE(mm->mi, n);
d3409d5e	283
	284	/* --- Discover the values %$R \bmod m$% and %$R^2 \bmod m$% --- */
	285
f5f35081	286	mm->r2 = MP_NEW;
	287	mp_div(0, &mm->r2, r2, m);
	288	mm->r = mpmont_reduce(mm, MP_NEW, mm->r2);
	289	MP_DROP(r2);
f4535c64	290	return (0);
d3409d5e	291	}
d3409d5e	292
52e4b041	293	#endif
52e4b041	294
d3409d5e	295	/* --- @mpmont_destroy@ --- *
	296	*
	297	* Arguments: @mpmont *mm@ = pointer to a Montgomery reduction context
	298	*
	299	* Returns: ---
	300	*
	301	* Use: Disposes of a context when it's no longer of any use to
	302	* anyone.
	303	*/
	304
	305	void mpmont_destroy(mpmont *mm)
	306	{
	307	MP_DROP(mm->m);
	308	MP_DROP(mm->r);
	309	MP_DROP(mm->r2);
f5f35081	310	MP_DROP(mm->mi);
d3409d5e	311	}
	312
	313	/* --- @mpmont_reduce@ --- *
	314	*
	315	* Arguments: @mpmont *mm@ = pointer to Montgomery reduction context
	316	* @mp *d@ = destination
ef5f4810	317	* @mp *a@ = source, assumed positive
d3409d5e	318	*
	319	* Returns: Result, %$a R^{-1} \bmod m$%.
	320	*/
	321
52e4b041	322	#ifdef MPMONT_DISABLE
52e4b041	323
ef5f4810	324	mp mpmont_reduce(mpmont mm, mp d, mp a)
52e4b041	325	{
	326	mp_div(0, &d, a, mm->m);
	327	return (d);
	328	}
	329
	330	#else
	331
ef5f4810	332	mp mpmont_reduce(mpmont mm, mp d, mp a)
d3409d5e	333	{
f5f35081	334	size_t n = mm->n;
	335
	336	/* --- Check for serious Karatsuba reduction --- */
	337
d6b9dc04	338	if (n > MPMONT_KTHRESH) {
f5f35081	339	mp al;
	340	mpw *vl;
	341	mp *u;
	342
0e70bd46 MW	343	if (MP_LEN(a) >= n) vl = a->v + n;
0e70bd46 MW	344	else vl = a->vl;
f5f35081	345	mp_build(&al, a->v, vl);
f5f35081	346	u = mp_mul(MP_NEW, &al, mm->mi);
0e70bd46	347	if (MP_LEN(u) > n) u->vl = u->v + n;
f5f35081	348	u = mp_mul(u, u, mm->m);
f5f35081	349	d = mp_add(d, a, u);
366e9701	350	MP_ENSURE(d, n);
f5f35081	351	mp_drop(u);
f5f35081	352	}
d3409d5e	353
f5f35081	354	/* --- Otherwise do it the hard way --- */
d3409d5e	355
d3409d5e	356	else {
d34decd2	357	a = MP_COPY(a);
0e70bd46	358	if (d) MP_DROP(d);
d34decd2	359	d = a;
0e70bd46 MW	360	MP_DEST(d, 2*mm->n + 1, a->f);
0e70bd46 MW	361	redccore(d->v, d->vl, mm->m->v, mm->n, mm->mi->v);
d3409d5e	362	}
d3409d5e	363
f5f35081	364	/* --- Wrap everything up --- */
d3409d5e	365
0e70bd46	366	finish(mm, d);
d3409d5e	367	return (d);
	368	}
	369
52e4b041	370	#endif
52e4b041	371
d3409d5e	372	/* --- @mpmont_mul@ --- *
	373	*
	374	* Arguments: @mpmont *mm@ = pointer to Montgomery reduction context
	375	* @mp *d@ = destination
ef5f4810	376	* @mp a, b@ = sources, assumed positive
d3409d5e	377	*
	378	* Returns: Result, %$a b R^{-1} \bmod m$%.
	379	*/
	380
52e4b041	381	#ifdef MPMONT_DISABLE
52e4b041	382
ef5f4810	383	mp mpmont_mul(mpmont mm, mp d, mp a, mp *b)
52e4b041	384	{
	385	d = mp_mul(d, a, b);
	386	mp_div(0, &d, d, mm->m);
	387	return (d);
	388	}
	389
	390	#else
	391
ef5f4810	392	mp mpmont_mul(mpmont mm, mp d, mp a, mp *b)
d3409d5e	393	{
444083ae MW	394	size_t n = mm->n;
444083ae MW	395
d6b9dc04	396	if (n > MPMONT_KTHRESH) {
ef5f4810	397	d = mp_mul(d, a, b);
	398	d = mpmont_reduce(mm, d, d);
	399	} else {
444083ae MW	400	a = MP_COPY(a); b = MP_COPY(b);
444083ae MW	401	MP_DEST(d, 2*n + 1, a->f \| b->f \| MP_UNDEF);
0e70bd46 MW	402	mulcore(d->v, d->vl, a->v, a->vl, b->v, b->vl,
	403	mm->m->v, mm->n, mm->mi->v);
	404	d->f = ((a->f \| b->f) & MP_BURN) \| ((a->f ^ b->f) & MP_NEG);
	405	finish(mm, d);
	406	MP_DROP(a); MP_DROP(b);
d3409d5e	407	}
d3409d5e	408
d3409d5e	409	return (d);
	410	}
	411
52e4b041	412	#endif
52e4b041	413
d3409d5e	414	/----- Test rig ----------------------------------------------------------/
	415
	416	#ifdef TEST_RIG
	417
	418	static int tcreate(dstr *v)
	419	{
	420	mp m = (mp **)v[0].buf;
	421	mp mi = (mp **)v[1].buf;
	422	mp r = (mp **)v[2].buf;
	423	mp r2 = (mp **)v[3].buf;
	424
	425	mpmont mm;
	426	int ok = 1;
	427
	428	mpmont_create(&mm, m);
	429
f5f35081	430	if (mm.mi->v[0] != mi->v[0]) {
d3409d5e	431	fprintf(stderr, "\n*** bad mi: found %lu, expected %lu",
f5f35081	432	(unsigned long)mm.mi->v[0], (unsigned long)mi->v[0]);
d3409d5e	433	fputs("\nm = ", stderr); mp_writefile(m, stderr, 10);
	434	fputc('\n', stderr);
	435	ok = 0;
	436	}
	437
032099d1	438	if (!MP_EQ(mm.r, r)) {
d3409d5e	439	fputs("\n*** bad r", stderr);
	440	fputs("\nm = ", stderr); mp_writefile(m, stderr, 10);
	441	fputs("\nexpected ", stderr); mp_writefile(r, stderr, 10);
45c0fd36	442	fputs("\n found ", stderr); mp_writefile(mm.r, stderr, 10);
d3409d5e	443	fputc('\n', stderr);
	444	ok = 0;
	445	}
	446
032099d1	447	if (!MP_EQ(mm.r2, r2)) {
d3409d5e	448	fputs("\n*** bad r2", stderr);
	449	fputs("\nm = ", stderr); mp_writefile(m, stderr, 10);
	450	fputs("\nexpected ", stderr); mp_writefile(r2, stderr, 10);
45c0fd36	451	fputs("\n found ", stderr); mp_writefile(mm.r2, stderr, 10);
d3409d5e	452	fputc('\n', stderr);
	453	ok = 0;
	454	}
	455
	456	MP_DROP(m);
	457	MP_DROP(mi);
	458	MP_DROP(r);
	459	MP_DROP(r2);
	460	mpmont_destroy(&mm);
ef5f4810	461	assert(mparena_count(MPARENA_GLOBAL) == 0);
d3409d5e	462	return (ok);
	463	}
	464
	465	static int tmul(dstr *v)
	466	{
	467	mp m = (mp **)v[0].buf;
	468	mp a = (mp **)v[1].buf;
	469	mp b = (mp **)v[2].buf;
	470	mp r = (mp **)v[3].buf;
d3409d5e	471	int ok = 1;
	472
	473	mpmont mm;
	474	mpmont_create(&mm, m);
	475
	476	{
79a34029	477	mp *qr = mp_mul(MP_NEW, a, b);
	478	mp_div(0, &qr, qr, m);
	479
032099d1	480	if (!MP_EQ(qr, r)) {
79a34029	481	fputs("\n*** classical modmul failed", stderr);
	482	fputs("\n m = ", stderr); mp_writefile(m, stderr, 10);
	483	fputs("\n a = ", stderr); mp_writefile(a, stderr, 10);
	484	fputs("\n b = ", stderr); mp_writefile(b, stderr, 10);
	485	fputs("\n r = ", stderr); mp_writefile(r, stderr, 10);
	486	fputs("\nqr = ", stderr); mp_writefile(qr, stderr, 10);
	487	fputc('\n', stderr);
	488	ok = 0;
	489	}
	490
	491	mp_drop(qr);
	492	}
	493
	494	{
d3409d5e	495	mp *ar = mpmont_mul(&mm, MP_NEW, a, mm.r2);
d3409d5e	496	mp *br = mpmont_mul(&mm, MP_NEW, b, mm.r2);
79a34029	497	mp *mr = mpmont_mul(&mm, MP_NEW, ar, br);
d3409d5e	498	mr = mpmont_reduce(&mm, mr, mr);
032099d1	499	if (!MP_EQ(mr, r)) {
79a34029	500	fputs("\n*** montgomery modmul failed", stderr);
	501	fputs("\n m = ", stderr); mp_writefile(m, stderr, 10);
	502	fputs("\n a = ", stderr); mp_writefile(a, stderr, 10);
	503	fputs("\n b = ", stderr); mp_writefile(b, stderr, 10);
	504	fputs("\n r = ", stderr); mp_writefile(r, stderr, 10);
	505	fputs("\nmr = ", stderr); mp_writefile(mr, stderr, 10);
	506	fputc('\n', stderr);
	507	ok = 0;
	508	}
d3409d5e	509	MP_DROP(ar); MP_DROP(br);
79a34029	510	mp_drop(mr);
d3409d5e	511	}
d3409d5e	512
d3409d5e	513
	514	MP_DROP(m);
	515	MP_DROP(a);
	516	MP_DROP(b);
	517	MP_DROP(r);
d3409d5e	518	mpmont_destroy(&mm);
ef5f4810	519	assert(mparena_count(MPARENA_GLOBAL) == 0);
d3409d5e	520	return ok;
	521	}
	522
d3409d5e	523	static test_chunk tests[] = {
ef5f4810	524	{ "create", tcreate, { &type_mp, &type_mp, &type_mp, &type_mp, 0 } },
ef5f4810	525	{ "mul", tmul, { &type_mp, &type_mp, &type_mp, &type_mp, 0 } },
d3409d5e	526	{ 0, 0, { 0 } },
	527	};
	528
	529	int main(int argc, char *argv[])
	530	{
	531	sub_init();
0f00dc4c	532	test_run(argc, argv, tests, SRCDIR "/t/mpmont");
d3409d5e	533	return (0);
	534	}
	535
	536	#endif
	537
	538	/----- That's all, folks -------------------------------------------------/