page0	=	4
page1	=	6
page2	=	8

	.area	SM (abs,ovr)

	.org	0x100

	ld	hl,0x1234
	ld	de,0x56
	call	math_mul_uw0
	call	print_hlde
	call	math_div_uw
	call	print_hlde

	ld	hl,0x6543
	ld	de,0x21
	call	math_mul_uw0
	call	print_hlde
	call	math_div_uw
	call	print_hlde

	ld	hl,0xb975
	ld	de,0x31
	call	math_mul_uw0
	call	print_hlde
	call	math_div_uw
	call	print_hlde

	ld	hl,0xdb97
	ld	de,0x531
	call	math_mul_uw0
	call	print_hlde
	call	math_div_uw
	call	print_hlde

	ld	hl,0x1234
	ld	de,0x56
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,0x6543
	ld	de,0x21
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,0xb975
	ld	de,0x31
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,0xdb97
	ld	de,0x531
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,-0x1234
	ld	de,0x56
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,-0x6543
	ld	de,0x21
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,-0xb975
	ld	de,0x31
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,-0xdb97
	ld	de,0x531
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,0x1234
	ld	de,-0x56
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,0x6543
	ld	de,-0x21
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,0xb975
	ld	de,-0x31
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,0xdb97
	ld	de,-0x531
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,-0x1234
	ld	de,-0x56
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,-0x6543
	ld	de,-0x21
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,-0xb975
	ld	de,-0x31
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,-0xdb97
	ld	de,-0x531
	call	math_mul_sw0
	call	print_hlde
	call	math_div_sw
	call	print_hlde

	ld	hl,0xdb97
	ld	de,0x7531
	exx
	ld	hl,0x1357
	ld	de,0xfdb9
	exx
	call	math_mul_ul0
	call	print_hlhldede
	call	math_div_ul
	call	print_hlhldede

	ld	hl,0xdb97
	ld	de,0x7531
	exx
	ld	hl,0x1357
	ld	de,0xfdb9
	exx
	call	math_mul_sl0
	call	print_hlhldede
	call	math_div_sl
	call	print_hlhldede

	ld	hl,~0xdb97
	ld	de,0x7531
	exx
	ld	hl,~0x1357
	ld	de,0xfdb9
	exx
	call	math_mul_sl0
	call	print_hlhldede
	call	math_div_sl
	call	print_hlhldede

	ld	hl,0xdb97
	ld	de,~0x7531
	exx
	ld	hl,0x1357
	ld	de,~0xfdb9
	exx
	call	math_mul_sl0
	call	print_hlhldede
	call	math_div_sl
	call	print_hlhldede

	ld	hl,~0xdb97
	ld	de,~0x7531
	exx
	ld	hl,~0x1357
	ld	de,~0xfdb9
	exx
	call	math_mul_sl0
	call	print_hlhldede
	call	math_div_sl
	call	print_hlhldede

	ld	hl,restarts
	ld	de,0x28
	ld	bc,restarts_end - restarts
	ldir

	ld	bc,sm_start
	jp	page0_dispatch0
sm_start:
	.db	<page0_imm_call
	.dw	sm_main
	.dw	0
	.db	<page0_esc
	jp	0

restarts:
	; rst 0x28, immediate to hl
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	a,(bc)
	inc	bc
	ld	h,a
	ret
	.db	0
	; rst 0x30, pop hl:de'
	;pop	hl
	;exx
	;pop	de
	;exx
	;ex	(sp),hl
	;ret
	.db	0,0,0,0,0,0
	.db	0,0
	; rst 0x38, immediate to de':hl
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	a,(bc)
	inc	bc
	ld	h,a
	ld	a,(bc)
	inc	bc
	exx
	ld	e,a
	exx
	ld	a,(bc)
	inc	bc
	exx
	ld	d,a
	exx
	ret
restarts_end:

; page 0 interpreter
; stack and control transfer

	.org	page0 * 0x100 - 18

page0_dispatch0:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page0
	jp	(hl)

page0_dispatch1:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page1
	jp	(hl)

page0_dispatch2:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page2
	jp	(hl)

; page 0 administrative

page0_trace:
	jp	print_trace

page0_esc:
	ld	l,c
	ld	h,b
	jp	(hl)

; page 0 to 0

page0_jeq:
	jr	nz,not_taken
page0_imm_jmp:
	rst	0x28
	ld	c,l
	ld	b,h
	jr	page0_dispatch0

page0_jne:
	jr	nz,page0_imm_jmp
not_taken:
	inc	bc
	inc	bc
	jr	page0_dispatch0

page0_jlt:
	jr	c,page0_imm_jmp
	jr	not_taken

page0_jge:
	jr	nc,page0_imm_jmp
	jr	not_taken

page0_imm_call:
	rst	0x28
	push	bc
	ld	c,l
	ld	b,h
	jr	page0_dispatch0

page0_ret:
	pop	bc
page0_stkadj:
	rst	0x28
	add	hl,sp
	ld	sp,hl
	jr	page0_dispatch0

; page 0 to 1

page0_page1:
	pop	de
	jr	page0_dispatch1

page0_peq:
	call	test_eq
	jr	page0_dispatch1

page0_pne:
	call	test_ne
	jr	page0_dispatch1

page0_plt:
	call	test_lt
	jr	page0_dispatch1

page0_pge:
	call	test_ge
	jr	page0_dispatch1

page0_stkptr:
	rst	0x28
	add	hl,sp
	ex	de,hl
	jr	page0_dispatch1

page0_stkld_w:
	;call	math_stkld_w
	;jr	page0_dispatch1
	jp	math_stkld_w

page0_imm_w:
	;call	math_imm_w
	;jr	page0_dispatch1
	jp	math_imm_w

; page 0 to 2

page0_page2:
	pop	de
	exx
	pop	hl
	exx
	jr	page0_dispatch2

page0_stkld_l:
	;call	math_stkld_l
	;jr	page0_dispatch2
	jp	math_stkld_l

page0_imm_l:
	;call	math_imm_l
	;jr	page0_dispatch2
	jp	math_imm_l

; page 1 interpreter
; word arithmetic operations
; top stack word cached in de

	.org	page1 * 0x100 - 13

page1_dispatch0:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page0
	jp	(hl)

add_w_done:
	ex	de,hl
page1_dispatch1:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page1
	jp	(hl)

; page 1 administrative

page1_trace:
	jp	print_trace

; page 1 to 0

page1_page0:
	push	de
	jr	page1_dispatch0

page1_call:
	push	bc
page1_jmp:
	ld	c,e
	ld	b,d
	jr	page1_dispatch0

page1_stkst_w:
	;call	math_stkst_w
	;jr	page1_dispatch0
	jp	math_stkst_w

page1_st_w:
	pop	hl
	ld	(hl),e
	inc	hl
	ld	(hl),d
	jr	page1_dispatch0

page1_imm_cmprev_sw:
	rst	0x28
	.db	0x3e ; ld a,
page1_cmp_sw:
	pop	hl
	;call	math_cmprev_sw
	;jr	page1_dispatch0
	jp	math_cmprev_sw

page1_imm_cmp_sw:
	rst	0x28
	.db	0x3e ; ld a,
page1_cmprev_sw:
	pop	hl
	;call	math_cmp_sw
	;jr	page1_dispatch0
	jp	math_cmp_sw

page1_imm_cmprev_uw:
	rst	0x28
	.db	0x3e ; ld a,
page1_cmp_uw:
	pop	hl
	or	a
	sbc	hl,de
	jr	page1_dispatch0

page1_imm_cmp_uw:
	rst	0x28
	.db	0x3e ; ld a,
page1_cmprev_uw:
	pop	hl
	ex	de,hl
	or	a
	sbc	hl,de
	jr	page1_dispatch0

; page 1 to 1

page1_ld_w:
	ex	de,hl
	ld	e,(hl)
	inc	hl
	ld	d,(hl)
	jr	page1_dispatch1

page1_imm_and_w:
	;call	math_and_imm_w
	;jr	page1_dispatch1
	jp	math_and_imm_w

page1_and_w:
	pop	hl
	;call	math_and_w
	;jr	page1_dispatch1a
	jp	math_and_w

page1_imm_or_w:
	;call	math_or_imm_w
	;jr	page1_dispatch1
	jp	math_or_imm_w

page1_or_w:
	pop	hl
	;call	math_or_w
	;jr	page1_dispatch1
	jp	math_or_w

page1_imm_xor_w:
	;call	math_xor_imm_w
	;jr	page1_dispatch1
	jp	math_xor_imm_w

page1_xor_w:
	pop	hl
	;call	math_xor_w
	;jr	page1_dispatch1
	jp	math_xor_w

page1_imm_add_w:
	rst	0x28
	.db	0x3e ; ld a,
page1_add_w:
	pop	hl
	add	hl,de
	jr	add_w_done

page1_imm_subrev_w:
	rst	0x28
	.db	0x3e ; ld a,
page1_sub_w:
	pop	hl
	or	a
	sbc	hl,de
	jr	add_w_done

; use addition for page1_imm_sub_w
page1_subrev_w:
	pop	hl
	ex	de,hl
	or	a
	sbc	hl,de
	jr	add_w_done

page1_imm_slrev_w:
	rst	0x28
	.db	0x3e ; ld a,
page1_sl_w:
	pop	hl
	call	math_sl_w
	jr	add_w_done ;mul_w_done

page1_imm_sl_w:
	rst	0x28
	.db	0x3e ; ld a,
page1_slrev_w:
	pop	hl
	call	math_sl_w0
	jr	add_w_done ;mul_w_done

page1_imm_srrev_sw:
	rst	0x28
	.db	0x3e ; ld a,
page1_sr_sw:
	pop	hl
	call	math_sr_sw
	jr	mul_w_done

page1_imm_sr_sw:
	rst	0x28
	.db	0x3e ; ld a,
page1_srrev_sw:
	pop	hl
	call	math_sr_sw0
	jr	mul_w_done

page1_imm_srrev_uw:
	rst	0x28
	.db	0x3e ; ld a,
page1_sr_uw:
	pop	hl
	call	math_sr_uw
	jr	mul_w_done

page1_imm_sr_uw:
	rst	0x28
	.db	0x3e ; ld a,
page1_srrev_uw:
	pop	hl
	call	math_sr_uw0
	jr	mul_w_done

page1_imm_mul_uw:
	rst	0x28
	.db	0x3e ; ld a,
page1_mul_w:
	pop	hl
	push	bc
	call	math_smul_w0
	pop	bc
	jr	mul_w_done

page1_imm_divrev_sw:
	rst	0x28
	.db	0x3e ; ld a,
page1_div_sw:
	pop	hl	
	push	bc
	call	math_sdiv_sw0
	jr	div_w_done

page1_imm_div_sw:
	rst	0x28
	.db	0x3e ; ld a,
page1_divrev_sw:
	pop	hl
	push	bc
	call	math_sdiv_sw
	jr	div_w_done

page1_imm_divrev_uw:
	rst	0x28
	.db	0x3e ; ld a,
page1_div_uw:
	pop	hl
	push	bc
	call	math_sdiv_uw0
	jr	div_w_done

page1_imm_div_uw:
	rst	0x28
	.db	0x3e ; ld a,
page1_divrev_uw:
	pop	hl
	push	bc
	call	math_sdiv_uw
	jr	div_w_done

; page 1 to 2

page1_ld_l:
	ex	de,hl
	;call	math_ld_l
	;jr	page1_dispatch2
	jp	math_ld_l

page1_imm_slrev_l:
	rst	0x38
	;.db	0x3e ; ld a,
	call	math_sl_l0
	jr	page1_dispatch2
page1_sl_l:
	;rst	0x30
	pop	hl
	exx
	pop	de
	exx
	call	math_sl_l0
	jr	page1_dispatch2

page1_imm_srrev_sl:
	rst	0x38
	;.db	0x3e ; ld a,
	call	math_sr_sl0
	jr	page1_dispatch2
page1_sr_sl:
	;rst	0x30
	pop	hl
	exx
	pop	de
	exx
	call	math_sr_sl0
	jr	page1_dispatch2

page1_imm_srrev_ul:
	;rst	0x38
	;.db	0x3e ; ld a,
	call	math_sr_ul0
	jr	page1_dispatch2
page1_sr_ul:
	;rst	0x30
	pop	hl
	exx
	pop	de
	exx
	call	math_sr_ul0
page1_dispatch2:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page2
	jp	(hl)

div_w_done:
	pop	bc
	push	de
mul_w_done:
	ex	de,hl
;page1_dispatch1h:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page1
	jp	(hl)

; page 2 interpreter
; long arithmetic operations
; top stack long cached in de:hl'

	.org	page2 * 0x100 - 13

page2_dispatch0:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page0
	jp	(hl)

add_l_done:
	ex	de,hl
page2_dispatch2:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page2
	jp	(hl)

; page 2 administrative

page2_trace:
	jp	print_trace

; page 2 to 0

page2_page0:
	exx
	push	hl
	exx
	push	de
	jr	page2_dispatch0

page2_stkst_l:
	;call	math_stkst_l
	;jr	page2_dispatch0
	jp	math_stkst_l

page2_st_l:
	pop	hl
	;call	math_st_l
	;jr	page2_dispatch0
	jp	math_st_l

page2_imm_cmprev_sl:
	rst	0x38
	;.db	0x3e ; ld a,
	jp	math_cmprev_sl
page2_cmp_sl:
	;rst	0x30
	;call	math_cmprev_sl
	;jr	page2_dispatch0
	jp	math_cmprev_sl0

page2_imm_cmprev_ul:
	rst	0x38
	;.db	0x3e ; ld a,
	jp	math_cmprev_ul
page2_cmp_ul:
	;rst	0x30
	;call	math_cmprev_ul
	;jr	page2_dispatch0
	jp	math_cmprev_ul0

page2_imm_cmp_sl:
	rst	0x38
	;.db	0x3e ; ld a,
	jp	math_cmp_sl
page2_cmprev_sl:
	;rst	0x30
	;call	math_cmp_sl
	;jr	page2_dispatch0
	jp	math_cmp_sl0

page2_imm_cmp_ul:
	rst	0x38
	;.db	0x3e ; ld a,
	jp	math_cmp_ul
page2_cmprev_ul:
	;rst	0x30
	;call	math_cmp_ul
	;jr	page2_dispatch0
	jp	math_cmp_ul0

; page 2 to 2

page2_imm_and_l:
	;call	math_and_imm_l
	;jr	page2_dispatch2
	jp	math_and_imm_l

page2_and_l:
	;rst	0x30
	;call	math_and_l
	;jr	page2_dispatch2
	jp	math_and_l0

page2_imm_or_l:
	;call	math_or_imm_l
	;jr	page2_dispatch2
	jp	math_or_imm_l

page2_or_l:
	;rst	0x30
	;call	math_or_l
	;jr	page2_dispatch2
	jp	math_or_l0

page2_imm_xor_l:
	;call	math_xor_imm_l
	;jr	page2_dispatch2
	jp	math_xor_imm_l

page2_xor_l:
	;rst	0x30
	;call	math_xor_l
	;jr	page2_dispatch2
	jp	math_xor_l0

page2_imm_add_l:
	rst	0x38
	;.db	0x3e ; ld a,
	jr	add_l_entry
page2_add_l:
	;rst	0x30
	pop	hl
	exx
	pop	de
	exx
add_l_entry: ; optimize this
	add	hl,de
	exx
	adc	hl,de
	exx
	jr	add_l_done

page2_imm_subrev_l:
	rst	0x38
	;.db	0x3e ; ld a,
	jr	sub_l_entry
page2_sub_l:
	;rst	0x30
	pop	hl
	exx
	pop	de
	exx
sub_l_entry: ; optimize this
	or	a
	sbc	hl,de
	exx
	ex	de,hl
	sbc	hl,de
	exx
	jr	add_l_done

; use addition for page2_imm_sub_l
page2_subrev_l:
	;rst	0x30
	pop	hl
	;exx
	;pop	de
	;exx
	ex	de,hl
	or	a
	sbc	hl,de
	exx 
 pop de
	sbc	hl,de
	jr	add_l_done

page2_imm_sl_l:
	rst	0x28
	.db	0x3e ; ld a,
page2_slrev_l:
	pop	hl
	ex	de,hl
	call	math_sl_l
	jr	mul_l_done

page2_imm_sr_sl:
	rst	0x28
	.db	0x3e ; ld a,
page2_srrev_sl:
	pop	hl
	ex	de,hl
	call	math_sr_sl
	jr	mul_l_done

page2_imm_sr_ul:
	rst	0x28
	.db	0x3e ; ld a,
page2_srrev_ul:
	pop	hl
	ex	de,hl
	call	math_sr_ul
	jr	mul_l_done

page2_imm_mul_ul:
	rst	0x38
	;.db	0x3e
	jr	mul_l_entry

page2_mul_l:
	;rst	0x30
	pop	hl
	exx
	pop	de
	exx
mul_l_entry:
	ex	de,hl
	push	bc
	call	math_smul_l0
	pop	bc
	jr	mul_l_done

page2_imm_divrev_sl:
	rst	0x38
	;.db	0x3e ; ld a,
	ex	de,hl
	push	bc
	call	math_sdiv_sl
	jr	div_l_done
page2_div_sl:
	;rst	0x30
	pop	hl
	exx
	pop	de
	exx
	ex	de,hl
	push	bc
	call	math_sdiv_sl
	jr	div_l_done

page2_imm_div_sl:
	rst	0x38
	;.db	0x3e ; ld a,
	push	bc
	call	math_sdiv_sl0
	jr	div_l_done
page2_divrev_sl:
	;rst	0x30
	pop	hl
	exx
	pop	de
	exx
	push	bc
	call	math_sdiv_sl0
	jr	div_l_done

page2_imm_divrev_ul:
	rst	0x38
	;.db	0x3e ; ld a,
	ex	de,hl
	push	bc
	call	math_div_ul1
	jr	div_l_done
page2_div_ul:
	;rst	0x30
	pop	hl
	exx
	pop	de
	exx
	ex	de,hl
	push	bc
	call	math_div_ul1
	jr	div_l_done

page2_imm_div_ul:
	rst	0x38
	;.db	0x3e ; ld a,
	push	bc
	call	math_div_ul0
	jr	div_l_done
page2_divrev_ul:
	;rst	0x30
	pop	hl
	exx
	pop	de
	exx
	push	bc
	call	math_div_ul0
div_l_done:
	pop	bc
	exx
	push	de
	exx
	push	de
mul_l_done:
	ex	de,hl
;page2_dispatch2h:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page2
	jp	(hl)

; conditionals

test_eq:
	ld	de,0
	ret	nz
	inc	de
	ret

test_ne:
	ld	de,0
	ret	z
	inc	de
	ret

test_ge:
	ccf
test_lt:
	ld	hl,0
	adc	hl,hl
	ex	de,hl
	ret

; math package

; lightweight routines

; these can be duplicated without much cost, and will be called often, so the
; calling convention is geared to what the interpreter needs (de:hl' and so on)

math_imm_w: ; immediate to de
	ld	a,(bc)
	inc	bc
	ld	e,a
	ld	a,(bc)
	inc	bc
	ld	d,a
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page1
	jp	(hl)

math_imm_l: ; immediate to hl':de
	ld	a,(bc)
	inc	bc
	ld	e,a
	ld	a,(bc)
	inc	bc
	ld	d,a
	ld	a,(bc)
	inc	bc
	exx
	ld	l,a
	exx
	ld	a,(bc)
	inc	bc
	exx
	ld	h,a
	exx
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page2
	jp	(hl)

math_stkld_w: ; sp(imm_w) to de
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	a,(bc)
	inc	bc
	ld	h,a
	add	hl,sp
; use inline code for math_ld_w
	ld	e,(hl)
	inc	hl
	ld	d,(hl)
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page1
	jp	(hl)

math_stkld_l: ; sp(imm_w) to de:hl'
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	a,(bc)
	inc	bc
	ld	h,a
	add	hl,sp
math_ld_l: ; (hl) to hl':de
	ld	e,(hl)
	inc	hl
	ld	d,(hl)
	inc	hl
	ld	a,(hl)
	inc	hl
	exx
	ld	l,a
	exx
	ld	a,(hl)
	exx
	ld	h,a
	exx
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page2
	jp	(hl)

math_stkst_w: ; de to sp(imm_w)
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	a,(bc)
	inc	bc
	ld	h,a
	add	hl,sp
	ld	(hl),e
	inc	hl
	ld	(hl),d
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page0
	jp	(hl)

math_stkst_l: ; de:hl' to sp(imm_w)
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	a,(bc)
	inc	bc
	ld	h,a
	add	hl,sp
math_st_l: ; hl':de to (hl)
.if 0
 call print_word
 ld a,':
 call print_char
 ex de,hl
 call print_word
 ex de,hl
 push hl
 exx
 push hl
 exx
 pop hl
 call print_word
 pop hl
 ld a,' 
 call print_char
.endif
	ld	(hl),e
	inc	hl
	ld	(hl),d
	inc	hl
	exx
	ld	a,l
	exx
	ld	(hl),a
	inc	hl
	exx
	ld	a,h
	exx
	ld	(hl),a
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page0
	jp	(hl)

math_and_imm_w: ; de &= imm_w
	ld	a,(bc)
	inc	bc
	and	e
	ld	e,a
	ld	a,(bc)
	inc	bc
	and	d
	ld	d,a
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	;ld	h,page1
	jp	(hl)

math_and_imm_l: ; hl':de &= imm_l
	ld	a,(bc)
	inc	bc
	and	e
	ld	e,a
	ld	a,(bc)
	inc	bc
	and	d
	ld	d,a
	ld	a,(bc)
	inc	bc
	exx
	and	l
	ld	l,a
	exx
	ld	a,(bc)
	inc	bc
	exx
	and	h
	ld	h,a
	exx
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	;ld	h,page2
	jp	(hl)

math_and_w: ; de &= hl
	ld	a,e
	and	l
	ld	e,a
	ld	a,d
	and	h
	ld	d,a
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page1
	jp	(hl)

math_and_l0:
	pop	hl
	exx
	pop	de
	exx
math_and_l: ; hl':de &= de':hl
	ld	a,e
	and	l
	ld	e,a
	ld	a,d
	and	h
	ld	d,a
	exx
	ld	a,l
	and	e
	ld	l,a
	ld	a,h
	and	d
	ld	h,a
	exx
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page2
	jp	(hl)

math_or_imm_w: ; de |= imm_w
	ld	a,(bc)
	inc	bc
	or	e
	ld	e,a
	ld	a,(bc)
	inc	bc
	or	d
	ld	d,a
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	;ld	h,page1
	jp	(hl)

math_or_imm_l: ; hl':de |= imm_l
	ld	a,(bc)
	inc	bc
	or	e
	ld	e,a
	ld	a,(bc)
	inc	bc
	or	d
	ld	d,a
	ld	a,(bc)
	inc	bc
	exx
	or	l
	ld	l,a
	exx
	ld	a,(bc)
	inc	bc
	exx
	or	h
	ld	h,a
	exx
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	;ld	h,page2
	jp	(hl)

math_or_w: ; de |= hl
	ld	a,e
	or	l
	ld	e,a
	ld	a,d
	or	h
	ld	d,a
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page1
	jp	(hl)

math_or_l0:
	pop	hl
	exx
	pop	de
	exx
math_or_l: ; hl':de |= de':hl
	ld	a,e
	or	l
	ld	e,a
	ld	a,d
	or	h
	ld	d,a
	exx
	ld	a,l
	or	e
	ld	l,a
	ld	a,h
	or	d
	ld	h,a
	exx
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page2
	jp	(hl)

math_xor_imm_w: ; de ^= imm_w
	ld	a,(bc)
	inc	bc
	xor	e
	ld	e,a
	ld	a,(bc)
	inc	bc
	xor	d
	ld	d,a
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	;ld	h,page1
	jp	(hl)

math_xor_imm_l: ; hl':de ^= imm_l
	ld	a,(bc)
	inc	bc
	xor	e
	ld	e,a
	ld	a,(bc)
	inc	bc
	xor	d
	ld	d,a
	ld	a,(bc)
	inc	bc
	exx
	xor	l
	ld	l,a
	exx
	ld	a,(bc)
	inc	bc
	exx
	xor	h
	ld	h,a
	exx
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	;ld	h,page2
	jp	(hl)

math_xor_w: ; de ^= hl
	ld	a,e
	xor	l
	ld	e,a
	ld	a,d
	xor	h
	ld	d,a
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page1
	jp	(hl)

math_xor_l0:
	pop	hl
	exx
	pop	de
	exx
math_xor_l: ; hl':de ^= de':hl
	ld	a,e
	xor	l
	ld	e,a
	ld	a,d
	xor	h
	ld	d,a
	exx
	ld	a,l
	xor	e
	ld	l,a
	ld	a,h
	xor	d
	ld	h,a
	exx
	;ret
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page2
	jp	(hl)

math_cmp_sw: ; cf=1 de < hl, zf=1 de == hl, signed
	ex	de,hl
math_cmprev_sw: ; cf=1 hl < de, zf=1 hl == de, signed
	or	a
	sbc	hl,de
	ld	a,h
	rla
	;ret	po
	jp	po,1$
	ccf
	;ret
1$:	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page0
	jp	(hl)

; use inline code for math_cmp_uw, math_cmprev_uw

math_cmp_sl0:
	pop	hl
	exx
	pop	de
	exx
math_cmp_sl: ; cf=1 hl':de < de':hl, zf=1 hl':de == de':hl, signed
	exx
	or	a
	sbc	hl,de
	ld	a,h
	exx ; optimize this
	jr	z,cmp_l_entry
	rla
	;ret	po
	jp	po,1$
	ccf
	;ret
1$:	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page0
	jp	(hl)

math_cmp_ul0:
	pop	hl
	exx
	pop	de
	exx ; optimize this
math_cmp_ul: ; cf=1 hl':de < de':hl, zf=1 hl':de == de':hl, unsigned
	exx
	or	a
	sbc	hl,de
	;ret	nz
	exx
	jr	nz,cmp_l_dispatch
cmp_l_entry:
	ex	de,hl
	sbc	hl,de
	;ret
cmp_l_dispatch:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page0
	jp	(hl)

math_cmprev_sl0:
	pop	hl
	exx
	pop	de
	exx
math_cmprev_sl: ; cf=1 de':hl < hl':de, zf=1 de':hl == hl':de, signed
	exx
	ex	de,hl
	or	a
	sbc	hl,de
	ld	a,h
	exx ; optimize this
	jr	z,cmprev_l_entry
	rla
	;ret	po
	jp	po,1$
	ccf
	;ret
1$:	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page0
	jp	(hl)

math_cmprev_ul0:
	pop	hl
	exx
	pop	de
	exx
math_cmprev_ul: ; cf=1 de':hl < hl':de, zf=1 de':hl == hl':de, signed
	exx
	ex	de,hl
	or	a
	sbc	hl,de
	exx
	;ret	nz
	jr	nz,cmprev_l_dispatch
cmprev_l_entry:
	sbc	hl,de
	;ret
cmprev_l_dispatch:
	ld	a,(bc)
	inc	bc
	ld	l,a
	ld	h,page0
	jp	(hl)

; heavyweight routines

; these have unrolled loops and so there needs to be as much reuse as possible

; for the multiply and divide the unrolled loops are placed in subroutines, so
; there is some overhead to use them, but it allows the calling code to itself
; be cheaply unrolled, so the amount left to do is determined by context not
; by a counter; the tradeoff is do we count loops by push bc/pop bc/djnz or by
; call/call/call, since both need a stack push/pop it should be about the same

; for these routines the calling convention is geared to whatever the routine
; needs to work most efficiently, this makes the usage more cumbersome as you
; to do something like ex de,hl/call/ex de,hl but it is done this way because
; otherwise some callsites need to exchange registers into place on one side
; of a call/ret boundary only for them to be immediately exchanged back again

; as an exception to this we may provide an earlier entry point(s), before the
; routine proper, which exchanges arguments into place (the caller must still
; deal with exchanges afterwards), we do this because of callsites that are in
; the interpreter pages and need to conserve code size, therefore the prefix
; chosen need not occur more than once, and we'll use the longest such prefix

; while some of these earlier entry points have a meaning, e.g. math_divrev_l
; before math_div_l, many of them do not, so we will just number them instead
; (this is because the prefix code can be a compromise between callers' needs)

math_sl_w0: ; hl = de << (l & 0xf)
	ex	de,hl
math_sl_w: ; hl <<= e & 0xf
	; by 1
	bit	0,e
	jr	z,1$
	add	hl,hl
1$:	; by 2
	bit	1,e
	jr	z,2$
	add	hl,hl
	add	hl,hl
2$:	; by 4
	bit	2,e
	jr	z,3$
	add	hl,hl
	add	hl,hl
	add	hl,hl
	add	hl,hl
3$:	; by 8
	bit	3,e
	ret	z
	ld	h,l
	ld	l,0
	ret

math_sl_l0: ; de':hl <<= e & 0x1f
	exx
	ex	de,hl
	exx
math_sl_l: ; hl':hl <<= e & 0x1f
	; by 1
	bit	0,e
	jr	z,1$
	add	hl,hl
	exx
	adc	hl,hl
	exx
1$:	; by 2
	bit	1,e
	jr	z,2$
	add	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,hl
	exx
	adc	hl,hl
	exx
2$:	; by 4
	bit	2,e
	jr	z,3$
	add	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,hl
	exx
	adc	hl,hl
	exx
3$:	; by 8
	bit	3,e
	jr	z,4$
	ld	a,h
	ld	h,l
	ld	l,0
	exx
	ld	h,l
	ld	l,a
	exx
4$:	; by 16
	bit	4,e
	ret	z
	push	hl
	ld	hl,0
	exx
	pop	hl
	exx
	ret

math_sr_uw0: ; hl = de >> (l & 0xf), logical
	ex	de,hl
math_sr_uw: ; hl >>= e & 0xf, logical
	ld	a,e
	and	0x1f
	add	7
math_sr_uw1: ; hl >>= a - 7, immediate a in [7, 0x17), arithmetic
	ld	e,a
	sub	a
	jr	sr_w_entry

math_sr_sw0: ; hl = de >> (l & 0xf), arithmetic
	ex	de,hl
math_sr_sw: ; hl >>= e & 0xf, arithmetic
	ld	a,e
	and	0xf
	add	7
math_sr_sw1: ; hl >>= a - 7, immediate a in [7, 0x17), arithmetic
	ld	e,a
	ld	a,h
	rla
	sbc	a,a
sr_w_entry:
	; by -1
	bit	0,e
	jr	nz,1$
	add	hl,hl
	rla
1$:	; by -2
	bit	1,e
	jr	nz,2$
	add	hl,hl
	rla
	add	hl,hl
	rla
2$:	; by -4
	bit	2,e
	jr	nz,3$
	add	hl,hl
	rla
	add	hl,hl
	rla
	add	hl,hl
	rla
	add	hl,hl
	rla
3$:	; by 8
	bit	3,e
	jr	z,4$
	ld	l,h
	ld	h,a
	ret
4$:	; by 16 (can't occur simultaneously with by 8)
	bit	4,e
	ret	z
	ld	l,a
	rla
	sbc	a,a
	ld	h,a
	ret

math_sr_ul0: ; hl:de' >>= e & 0x1f, logical
	exx
	ex	de,hl
	exx
math_sr_ul: ; hl:hl' >>= e & 0x1f, logical
	ld	a,e
	and	0x1f
	add	7
math_sr_ul1: ; hl:hl' >>= a - 7, immediate a in [7, 0x27), logical
	ld	e,a
	sub	a
	jr	sr_l_entry

math_sr_sl0: ; de':hl >>= e & 0x1f, arithmetic
	exx
	ex	de,hl
	exx
math_sr_sl: ; hl':hl >>= e & 0x1f, arithmetic
	ld	a,e
	and	0xf
	add	7
math_sr_sl1: ; hl':hl >>= a - 7, immediate a in [7, 0x27), arithmetic
	ld	e,a
	exx
	ld	a,h
	exx
	rla
	sbc	a,a
sr_l_entry:
	; by -1
	bit	0,e
	jr	nz,1$
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
1$:	; by -2
	bit	1,e
	jr	nz,2$
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
2$:	; by -4
	bit	2,e
	jr	nz,3$
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
3$:	; by 8
	bit	3,e
	jr	z,4$
	exx
	ld	d,l
	ld	l,h
	ld	h,a
	rla
	ld	a,d
	exx
	ld	l,h
	ld	h,a
	sbc	a,a
4$:	; by 16
	bit	4,e
	jr	z,5$
	exx
	push	hl
	ld	l,a
	rla
	sbc	a,a
	ld	h,a
	exx
	pop	hl
	ret
5$:	; by 32 (can't occur simultaneously with by 16)
	bit	5,e
	ret	z
	ld	l,a
	rla
	sbc	a,a
	ld	h,a
	exx
	ld	l,a
	ld	h,a
	exx
	ret

; smul: short multiplication
; 16 * 16 to 16 bit product (word)
; 32 * 32 to 32 bit product (long)
; mul: long multiplication
; 16 + 16 * 16 to 32 bit product (word)
; 32 + 32 * 32 to 64 bit product (long)

; smul is implemented in a more optimal way that uses only left shifts,
; since left shifts are cheaper on the z80, this works for smul because
; there is no need to worry about propagating carries into high result

; mul has the ability to initialize the product with some nonzero value,
; which smul doesn't have because it only shifts zeros in from the left,
; using this ability the long multiplication reverses the long division
; (initialize product with a remainder, then add in quotient * divisor)

math_smul_w0: ; hl *= de
	ld	c,l
	ld	b,h
math_smul_w: ; hl = bc * de
	ld	a,d
	call	smul_w0
	ld	a,e
smul_w:	; bit 0
	add	hl,hl
smul_w0:	rla
	jr	nc,1$
	add	hl,bc
1$:	; bit 1
	add	hl,hl
	rla
	jr	nc,2$
	add	hl,bc
2$:	; bit 2
	add	hl,hl
	rla
	jr	nc,3$
	add	hl,bc
3$:	; bit 3
	add	hl,hl
	rla
	jr	nc,4$
	add	hl,bc
4$:	; bit 4
	add	hl,hl
	rla
	jr	nc,5$
	add	hl,bc
5$:	; bit 5
	add	hl,hl
	rla
	jr	nc,6$
	add	hl,bc
6$:	; bit 6
	add	hl,hl
	rla
	jr	nc,7$
	add	hl,bc
7$:	; bit 7
	add	hl,hl
	rla
	ret	nc
	add	hl,bc
	ret

math_smul_l0: ; hl':hl *= de':de
	ld	c,l
	ld	b,h
	exx
	ld	c,l
	ld	b,h
	exx
math_smul_l: ; hl':hl = de':de * bc':bc
	exx
	ld	a,d
	exx
	call	smul_l0
	exx
	ld	a,e
	exx
	call	smul_l
	ld	a,d
	call	smul_l
	ld	a,e
smul_l:	; bit 0
	add	hl,hl
	exx
	adc	hl,hl
	exx
smul_l0:	rla
	jr	nc,1$
	add	hl,bc
	exx
	adc	hl,bc
	exx
1$:	; bit 1
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	jr	nc,2$
	add	hl,bc
	exx
	adc	hl,bc
	exx
2$:	; bit 2
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	jr	nc,3$
	add	hl,bc
	exx
	adc	hl,bc
	exx
3$:	; bit 3
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	jr	nc,4$
	add	hl,bc
	exx
	adc	hl,bc
	exx
4$:	; bit 4
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	jr	nc,5$
	add	hl,bc
	exx
	adc	hl,bc
	exx
5$:	; bit 5
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	jr	nc,6$
	add	hl,bc
	exx
	adc	hl,bc
	exx
6$:	; bit 6
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	jr	nc,7$
	add	hl,bc
	exx
	adc	hl,bc
	exx
7$:	; bit 7
	add	hl,hl
	exx
	adc	hl,hl
	exx
	rla
	ret	nc
	add	hl,bc
	exx
	adc	hl,bc
	exx
	ret

math_mul_sw0: ; hl:de = hl * de, signed
	ld	c,l
	ld	b,h
	ld	hl,0
math_mul_sw: ; hl:de = hl + bc * de, signed
	ld	a,b
	rla ; cf will be preserved through to the last rra below
	ld	a,e
	call	mul_uw
	push	af
	ld	a,d
	call	mul_uw1 ; do only 7 bits, get sign of d into cf
	jr	nc,1$
	or	a
	sbc	hl,bc
1$:	rr	h
	rr	l
	rra
	jr	nc,2$
	or	a
	sbc	hl,de
2$:	ld	d,a
	pop	af
	ld	e,a
	ret

math_mul_uw0: ; hl:de = hl * de, unsigned
	ld	c,l
	ld	b,h
	ld	hl,0
math_mul_uw: ; hl:de = hl + bc * de, unsigned
	ld	a,e
	call	mul_uw
	ld	e,a
	ld	a,d
	call	mul_uw
	ld	d,a
	ret

mul_uw: rra
	; bit 0
	jr	nc,1$
	add	hl,bc
1$:	rr	h
	rr	l
mul_uw1:
	rra
	; bit 1
	jr	nc,2$
	add	hl,bc
2$:	rr	h
	rr	l
	rra
	; bit 2
	jr	nc,3$
	add	hl,bc
3$:	rr	h
	rr	l
	rra
	; bit 3
	jr	nc,4$
	add	hl,bc
4$:	rr	h
	rr	l
	rra
	; bit 4
	jr	nc,5$
	add	hl,bc
5$:	rr	h
	rr	l
	rra
	; bit 5
	jr	nc,6$
	add	hl,bc
6$:	rr	h
	rr	l
	rra
	; bit 6	
	jr	nc,7$
	add	hl,bc
7$:	rr	h
	rr	l
	rra
	; bit 7
	jr	nc,8$
	add	hl,bc
8$:	rr	h
	rr	l
	rra
	ret

math_mul_sl0: ; hl':hl:de':de = hl':hl * de':de, signed
	ld	c,l
	ld	b,h
	sub	a
	ld	l,a
	ld	h,a
	exx
	ld	c,l
	ld	b,h
	ld	l,a
	ld	h,a
	exx ; hard to optimize this
math_mul_sl: ; hl':hl:de':de = hl':hl + bc':bc * de':de, signed
	exx
	ld	a,b
	rla ; cf will be preserved through to the last rra below
	exx
	ld	a,e
	call	mul_ul
	push	af
	ld	a,d
	call	mul_ul
	push	af
	exx
	ld	a,e
	exx
	call	mul_ul
	push	af
	exx
	ld	a,d
	exx
	call	mul_ul1 ; do only 7 bits, get sign of d into cf
	jr	nc,1$
	or	a
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx ; hard to optimize this
1$:	exx
	rr	h
	rr	l
	exx
	rr	h
	rr	l
	rra
	jr	nc,2$
	or	a
	sbc	hl,de
	exx
	sbc	hl,de
	exx ; hard to optimize this
2$:	exx
	ld	d,a
	pop	af
	ld	e,a
	exx
	pop	de
	pop	af
	ld	e,a
	ret

math_mul_ul0: ; hl':hl:de':de = hl':hl * de':de, unsigned
	ld	c,l
	ld	b,h
	sub	a
	ld	l,a
	ld	h,a
	exx
	ld	c,l
	ld	b,h
	ld	l,a
	ld	h,a
	exx
math_mul_ul: ; hl':hl:de':de = hl':hl + bc':bc * de':de, unsigned
	ld	a,e
	call	mul_ul
	ld	e,a
	ld	a,d
	call	mul_ul
	ld	d,a
	exx
	ld	a,e
	exx
	call	mul_ul
	exx
	ld	e,a
	ld	a,d
	exx
	call	mul_ul
	exx
	ld	d,a
	exx
	ret

mul_ul: rra
	; bit 0
	jr	nc,1$
	add	hl,bc
	exx
	adc	hl,bc
	exx ; optimize this
1$:	exx
	rr	h
	rr	l
	exx
	rr	h
	rr	l
mul_ul1:
	rra
	; bit 1
	jr	nc,2$
	add	hl,bc
	exx
	adc	hl,bc
	exx ; optimize this
2$:	exx
	rr	h
	rr	l
	exx
	rr	h
	rr	l
	rra
	; bit 2
	jr	nc,3$
	add	hl,bc
	exx
	adc	hl,bc
	exx ; optimize this
3$:	exx
	rr	h
	rr	l
	exx
	rr	h
	rr	l
	rra
	; bit 3
	jr	nc,4$
	add	hl,bc
	exx
	adc	hl,bc
	exx ; optimize this
4$:	exx
	rr	h
	rr	l
	exx
	rr	h
	rr	l
	rra
	; bit 4
	jr	nc,5$
	add	hl,bc
	exx
	adc	hl,bc
	exx ; optimize this
5$:	exx
	rr	h
	rr	l
	exx
	rr	h
	rr	l
	rra
	; bit 5
	jr	nc,6$
	add	hl,bc
	exx
	adc	hl,bc
	exx ; optimize this
6$:	exx
	rr	h
	rr	l
	exx
	rr	h
	rr	l
	rra
	; bit 6	
	jr	nc,7$
	add	hl,bc
	exx
	adc	hl,bc
	exx ; optimize this
7$:	exx
	rr	h
	rr	l
	exx
	rr	h
	rr	l
	rra
	; bit 7
	jr	nc,8$
	add	hl,bc
	exx
	adc	hl,bc
	exx ; optimize this
8$:	exx
	rr	h
	rr	l
	exx
	rr	h
	rr	l
	rra
	ret

; sdiv: short division
; 16 / 16 to 16 bit quotient, 16 bit remainder (word)
; 32 / 32 to 32 bit quotient, 32 bit remainder (long)
; div: long division
; 32 / 16 to 16 bit quotient, 16 bit remainder (word)
; 64 / 32 to 32 bit quotient, 32 bit remainder (long)

; sdiv is implemented as sign/zero extension then div

math_sdiv_sw0: ; hl, de = hl % de, hl / de, signed
	ex	de,hl
math_sdiv_sw: ; hl, de = de % hl, de / hl, signed
	ld	c,l
	ld	b,h
	ld	a,d
	rla
	sbc	a,a
	ld	l,a
	ld	h,a
math_div_sw: ; hl, de = hl:de % bc, hl:de / bc, signed
	ld	a,h
	or	a
	ld	a,b
	rla
	jp	m,div_w_n		; positive dividend

	; positive dividend
	ld	a,d
	jr	nc,div_w_pp		; positive dividend, positive divisor

	; positive dividend, negative divisor
	call	div_w_n1
	ld	d,a
	ld	a,e
	call	div_w_ncf
	inc	a
	ld	e,a
	ret	c
	sbc	hl,bc
	ret

div_w_n:
	; negative dividend
	dec	de			; reduces remainder by 1 (we inc later)
	ld	a,d
	jr	c,div_w_nn		; negative dividend, negative divisor 

	; negative dividend, positive divisor
	call	div_w1
	ld	d,a
	ld	a,e
	call	div_wcf
	inc	a
	ld	e,a
	inc	hl			; get into range -divisor+1..0
	ret	c
	sbc	hl,bc
	ret

div_w_nn: ; negative dividend, negative divisor
	call	div_w_n0
	ld	d,a
	ld	a,e
	call	div_w_ncf
	ld	e,a
	inc	hl			; get into range divisor+1..0
	ret	nc
	add	hl,bc
	ret

math_sdiv_uw0: ; hl, de = hl % de, hl / de, unsigned
	ex	de,hl
math_sdiv_uw: ; hl, de = de % hl, de / hl, unsigned
	ld	c,l
	ld	b,h
	ld	hl,0
math_div_uw: ; hl, de = hl:de % bc, hl:de / bc, unsigned
	ld	a,d
div_w_pp: ; positive dividend, positive divisor
	call	div_w0
	ld	d,a
	ld	a,e
	call	div_wcf
	ld	e,a
	ret	nc
	add	hl,bc
	ret

; non-restoring division routine

; de = divisor, hl:a = dividend with hl = previous remainder, a = next byte
; enter at div0 with positive remainder in hl, such that hl < de
; enter at div1 with negative remainder in hl, such that hl >= -de

; div0/1 return a = 8-bit quotient as an odd number interpreted as -ff..ff,
; by summing positive/negative place values, e.g. -80 +40 +20 -10 +8 -4 -2 +1

; if entered at div0, there is a -80 and so quotient is in range -ff..-1
; if entered at div1, there is a +80 and so quotient is in range 1..ff
; falls out of loop after div01 with positive remainder, div11 with negative,
; depending on this we should re-enter at div0 or div1, signalled by cf return

; the successive quotient bytes can be concatenated into a full quotient,
; but negative bytes require the next higher quotient byte to be decremented,
; we know in advance if this will happen because the implied sign of the
; quotient byte depends only on whether we entered at div0 or div1, hence,
; before the div11 return we'll decrement to compensate for next negative byte

; the decrement can also be seen as compensating for the extra add hl,de that
; may be needed to make negative remainder positive before return to caller,
; thus leaving quotient in a consistent state regardless of which exit taken,
; remainder needs the add hl,de if cf=1 returned (equiv. return byte is even)

; in the following code each sbc hl,de gets an inc a and each add hl,de gets
; a dec a, guaranteeing the integrity of the division, the initial scf/rla is
; needed to make the result 100 + -ff..ff or 1..1ff, so that the decrements
; cannot borrow into the upcoming dividend bits also held in a, and there must
; be another shift between the scf/rla and increment/decrement so that the scf
; is implicitly in the 100s place, making the code awkward though it's correct

; now optimized to only inc/dec a when doing zero-crossing, fix above analysis

.if 1 ; temporary
div_wcf:
	jr	c,div_w1
div_w0: ; above
	push	de
	ld	d,8
	scf
	rla
div_w00:
	adc	hl,hl
	jr	c,div_w01
	sbc	hl,bc
	jr	nc,div_w02
	dec	a
	;jr	div_w12
	add	a,a
	dec	d
	jr	nz,div_w10
	;inc	a
	;dec	a			; compensation
	scf
	pop	de
	ret
div_w01:
	or	a
	sbc	hl,bc
div_w02:
	add	a,a
	dec	d
	jr	nz,div_w00
	dec	a
	or	a
	pop	de
	ret

div_w1: ; below
	push	de
	ld	d,8
	add	a,a
div_w10:
	adc	hl,hl
	jr	nc,div_w11
	add	hl,bc
	jr	nc,div_w12
	inc	a
	;jr	div_w02
	add	a,a
	dec	d
	jr	nz,div_w00
	dec	a
	or	a
	pop	de
	ret
div_w11:
	add	hl,bc
div_w12:
	add	a,a
	dec	d
	jr	nz,div_w10
	;inc	a
	;dec	a			; compensation
	scf
	pop	de
	ret

div_w_ncf:
	jr	c,div_w_n1
div_w_n0: ; above
	push	de
	ld	d,8
	scf
	rla
div_w_n00:
	adc	hl,hl
	jr	nc,div_w_n01
	or	a
	sbc	hl,bc
	jr	c,div_w_n02
	dec	a
	;jr	div_w_n12
	add	a,a
	dec	d
	jr	nz,div_w_n10
	;inc	a
	;dec	a			; compensation
	scf
	pop	de
	ret
div_w_n01:
	sbc	hl,bc
div_w_n02:
	add	a,a
	dec	d
	jr	nz,div_w_n00
	dec	a
	or	a
	pop	de
	ret

div_w_n1: ; below
	push	de
	ld	d,8
	add	a,a
div_w_n10:
	adc	hl,hl
	jr	c,div_w_n11
	add	hl,bc
	jr	c,div_w_n12
	inc	a
	;jr	div_w_n02
	add	a,a
	dec	d
	jr	nz,div_w_n00
	dec	a
	or	a
	pop	de
	ret
div_w_n11:
	add	hl,bc
div_w_n12:
	add	a,a
	dec	d
	jr	nz,div_w_n10
	;inc	a
	;dec	a			; compensation
	scf
	pop	de
	ret
.else
div_wcf:
	jr	c,div_w1
div_w0: ; bit 0, above
	scf
	rla
	adc	hl,hl
	sbc	hl,bc
	jr	nc,div_w01
	dec	a
div_w11: ; bit 1, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	nc,div_w12
	inc	a
div_w02: ; bit 2, above
	add	a,a
	adc	hl,hl
	sbc	hl,bc
	jr	nc,div_w03
	dec	a
div_w13: ; bit 3, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	nc,div_w14
	inc	a
div_w04: ; bit 4, above
	add	a,a
	adc	hl,hl
	sbc	hl,bc
	jr	nc,div_w05
	dec	a
div_w15: ; bit 5, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	nc,div_w16
	inc	a
div_w06: ; bit 6, above
	add	a,a
	adc	hl,hl
	sbc	hl,bc
	jr	nc,div_w07
	dec	a
div_w17: ; bit 7, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	nc,div_w18
	inc	a
div_w08: ; done, above
	add	a,a
	dec	a
	or	a
	ret

div_w1: ; bit 0, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	nc,div_w11
	inc	a
div_w01: ; bit 1, above
	add	a,a
	adc	hl,hl
	sbc	hl,bc
	jr	nc,div_w02
	dec	a
div_w12: ; bit 2, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	nc,div_w13
	inc	a
div_w03: ; bit 3, above
	add	a,a
	adc	hl,hl
	sbc	hl,bc
	jr	nc,div_w04
	dec	a
div_w14: ; bit 4, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	nc,div_w15
	inc	a
div_w05: ; bit 5, above
	add	a,a
	adc	hl,hl
	sbc	hl,bc
	jr	nc,div_w06
	dec	a
div_w16: ; bit 6, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	nc,div_w17
	inc	a
div_w07: ; bit 7, above
	add	a,a
	adc	hl,hl
	sbc	hl,bc
	jr	nc,div_w08
	dec	a
div_w18: ; done, below
	add	a,a
	;inc	a
	;dec	a			; compensation
	scf
	ret

; divn0/1 are the same as div0/1 but carry reversed after add/subtract divisor
; this is for negative divisors where we expect carry (means no zero crossing)

; when divisor negated, remainder also negated, so we expect to do subtraction
; when remainder negative and vice versa, need to clear carry after add hl,hl

div_w_ncf:
	jr	c,div_w_n1
div_w_n0: ; bit 0, above
	scf
	rla
	adc	hl,hl
	or	a
	sbc	hl,bc
	jr	c,div_w_n01
	dec	a
div_w_n11: ; bit 1, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	c,div_w_n12
	inc	a
div_w_n02: ; bit 2, above
	add	a,a
	adc	hl,hl
	or	a
	sbc	hl,bc
	jr	c,div_w_n03
	dec	a
div_w_n13: ; bit 3, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	c,div_w_n14
	inc	a
div_w_n04: ; bit 4, above
	add	a,a
	adc	hl,hl
	or	a
	sbc	hl,bc
	jr	c,div_w_n05
	dec	a
div_w_n15: ; bit 5, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	c,div_w_n16
	inc	a
div_w_n06: ; bit 6, above
	add	a,a
	adc	hl,hl
	or	a
	sbc	hl,bc
	jr	c,div_w_n07
	dec	a
div_w_n17: ; bit 7, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	c,div_w_n18
	inc	a
div_w_n08: ; done, above
	add	a,a
	dec	a
	or	a
	ret

div_w_n1: ; bit 0, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	c,div_w_n11
	inc	a
div_w_n01: ; bit 1, above
	add	a,a
	adc	hl,hl
	or	a
	sbc	hl,bc
	jr	c,div_w_n02
	dec	a
div_w_n12: ; bit 2, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	c,div_w_n13
	inc	a
div_w_n03: ; bit 3, above
	add	a,a
	adc	hl,hl
	or	a
	sbc	hl,bc
	jr	c,div_w_n04
	dec	a
div_w_n14: ; bit 4, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	c,div_w_n15
	inc	a
div_w_n05: ; bit 5, above
	add	a,a
	adc	hl,hl
	or	a
	sbc	hl,bc
	jr	c,div_w_n06
	dec	a
div_w_n16: ; bit 6, below
	add	a,a
	adc	hl,hl
	add	hl,bc
	jr	c,div_w_n17
	inc	a
div_w_n07: ; bit 7, above
	add	a,a
	adc	hl,hl
	or	a
	sbc	hl,bc
	jr	c,div_w_n08
	dec	a
div_w_n18: ; done, below
	add	a,a
	;inc	a
	;dec	a			; compensation
	scf
	ret
.endif

math_sdiv_sl0: ; hl':hl, de':de = hl':de % de':hl, hl':de / de':hl, signed
	exx
	ex	de,hl
	exx
math_sdiv_sl: ; ; hl':hl, de':de = de':de % hl':hl, de':de / hl':hl, signed
	exx
	ld	c,l
	ld	b,h
	ld	a,d
	rla
	sub	a,a
	ld	l,a
	ld	h,a
	exx
	ld	c,l
	ld	b,h
	ld	l,a
	ld	h,a
math_div_sl:
	; hl':hl, de':de =
	;   hl':hl:de':de % bc':bc, hl':hl:de':de / bc':bc, signed
	exx
	ld	a,h
	or	a
	jp	m,div_l_n		; positive dividend

	; positive dividend
	ld	a,b
	rla
	ld	a,d
	exx
	jr	nc,div_l_pp		; positive dividend, positive divisor

	; positive dividend, negative divisor
	call	div_l_n1
	exx
	ld	d,a
	ld	a,e
	exx
	call	div_l_ncf
	exx
	ld	e,a
	exx
	ld	a,d
	call	div_l_ncf
	ld	d,a
	ld	a,e
	call	div_l_ncf
	inc	a
	ld	e,a
	ret	c
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	ret

div_l_n: ; negative dividend
	exx
	ld	a,e
	or	d
	dec	de			; reduces remainder by 1 (we inc later)
	exx
	jr	nz,1$
	dec	de
1$:	ld	a,b
	rla
	ld	a,d
	exx
	jr	c,div_l_nn		; negative dividend, negative divisor 

	; negative dividend, positive divisor
	call	div_l1
	exx
	ld	d,a
	ld	a,e
	exx
	call	div_lcf
	exx
	ld	e,a
	exx
	ld	a,d
	call	div_lcf
	ld	d,a
	ld	a,e
	call	div_lcf
	inc	a
	ld	e,a
	jr	c,2$
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
2$:	inc	hl			; get into range divisor+1..0
	ld	a,l
	or	h
	ret	nz
	exx
	inc	hl
	exx
	ret

math_div_ul0: ; hl':hl, de':de = hl':de % de':hl, hl':de / de':hl, unsigned
	exx
	ex	de,hl
	exx
math_div_ul1: ; ; hl':hl, de':de = de':de % hl':hl, de':de / hl':hl, unsigned
	ld	c,l
	ld	b,h
	sub	a
	ld	l,a
	ld	h,a
	exx
	ld	c,l
	ld	b,h
	ld	l,a
	ld	h,a
	exx
math_div_ul:
	; hl':hl, de':de =
	;   hl':hl:de':de % bc':bc, hl':hl:de':de / bc':bc, unsigned
	exx
	ld	a,d
	exx
div_l_pp: ; positive dividend, positive divisor
	call	div_l0
	exx
	ld	d,a
	ld	a,e
	exx
	call	div_lcf
	exx
	ld	e,a
	exx
	ld	a,d
	call	div_lcf
	ld	d,a
	ld	a,e
	call	div_lcf
	ld	e,a
	ret	nc
	add	hl,bc
	exx
	adc	hl,bc
	exx
	ret

div_l_nn: ; negative dividend, negative divisor
	call	div_l_n0
	exx
	ld	d,a
	ld	a,e
	exx
	call	div_l_ncf
	exx
	ld	e,a
	exx
	ld	a,d
	call	div_l_ncf
	ld	d,a
	ld	a,e
	call	div_l_ncf
	ld	e,a
	jr	nc,1$
	add	hl,bc
	exx
	adc	hl,bc
	exx
1$:	inc	hl			; get into range divisor+1..0
	ld	a,l
	or	h
	ret	nz
	exx
	inc	hl
	exx
	ret

; non-restoring division routine
; see earlier comments for the word version, this extends the concept to long

.if 1 ; temporary
div_lcf:
	jr	c,div_l1
div_l0: ; above
	push	de
	ld	d,8
	scf
	rla
div_l00:
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	jr	c,div_l01
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jr	nc,div_l02
	dec	a
	;jr	div_l12
	add	a,a
	dec	d
	jr	nz,div_l10
	;inc	a
	;dec	a			; compensation
	scf
	pop	de
	ret
div_l01:
	or	a
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
div_l02:
	add	a,a
	dec	d
	jr	nz,div_l00
	dec	a
	or	a
	pop	de
	ret

div_l1: ; below
	push	de
	ld	d,8
	add	a,a
div_l10:
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	jr	nc,div_l11
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jr	nc,div_l12
	inc	a
	;jr	div_l02
	add	a,a
	dec	d
	jr	nz,div_l00
	dec	a
	or	a
	pop	de
	ret
div_l11:
	add	hl,bc
	exx
	adc	hl,bc
	exx
div_l12:
	add	a,a
	dec	d
	jr	nz,div_l10
	;inc	a
	;dec	a			; compensation
	scf
	pop	de
	ret

div_l_ncf:
	jr	c,div_l_n1
div_l_n0: ; above
	push	de
	ld	d,8
	scf
	rla
div_l_n00:
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	jr	nc,div_l_n01
	or	a
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jr	c,div_l_n02
	dec	a
	;jr	div_l_n12
	add	a,a
	dec	d
	jr	nz,div_l_n10
	;inc	a
	;dec	a			; compensation
	scf
	pop	de
	ret
div_l_n01:
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
div_l_n02:
	add	a,a
	dec	d
	jr	nz,div_l_n00
	dec	a
	or	a
	pop	de
	ret

div_l_n1: ; below
	push	de
	ld	d,8
	add	a,a
div_l_n10:
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	jr	c,div_l_n11
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jr	c,div_l_n12
	inc	a
	;jr	div_l_n02
	add	a,a
	dec	d
	jr	nz,div_l_n00
	dec	a
	or	a
	pop	de
	ret
div_l_n11:
	add	hl,bc
	exx
	adc	hl,bc
	exx
div_l_n12:
	add	a,a
	dec	d
	jr	nz,div_l_n10
	;inc	a
	;dec	a			; compensation
	scf
	pop	de
	ret
.else
; changed all jr to jp, revisit this

div_lcf:
	jp	c,div_l1
div_l0: ; bit 0, above
	scf
	rla
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	nc,div_l01
	dec	a
div_l11: ; bit 1, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	nc,div_l12
	inc	a
div_l02: ; bit 2, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	nc,div_l03
	dec	a
div_l13: ; bit 3, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	nc,div_l14
	inc	a
div_l04: ; bit 4, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	nc,div_l05
	dec	a
div_l15: ; bit 5, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	nc,div_l16
	inc	a
div_l06: ; bit 6, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	nc,div_l07
	dec	a
div_l17: ; bit 7, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	nc,div_l18
	inc	a
div_l08: ; done, above
	add	a,a
	dec	a
	or	a
	ret

div_l1: ; bit 0, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	nc,div_l11
	inc	a
div_l01: ; bit 1, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	nc,div_l02
	dec	a
div_l12: ; bit 2, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	nc,div_l13
	inc	a
div_l03: ; bit 3, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	nc,div_l04
	dec	a
div_l14: ; bit 4, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	nc,div_l15
	inc	a
div_l05: ; bit 5, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	nc,div_l06
	dec	a
div_l16: ; bit 6, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	nc,div_l17
	inc	a
div_l07: ; bit 7, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	nc,div_l08
	dec	a
div_l18: ; done, below
	add	a,a
	;inc	a
	;dec	a			; compensation
	scf
	ret

; version for negative divisors
; see earlier comments for the word version, this extends the concept to long

div_l_ncf:
	jp	c,div_l_n1
div_l_n0: ; bit 0, above
	scf
	rla
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	or	a
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	c,div_l_n01
	dec	a
div_l_n11: ; bit 1, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	c,div_l_n12
	inc	a
div_l_n02: ; bit 2, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	or	a
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	c,div_l_n03
	dec	a
div_l_n13: ; bit 3, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	c,div_l_n14
	inc	a
div_l_n04: ; bit 4, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	or	a
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	c,div_l_n05
	dec	a
div_l_n15: ; bit 5, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	c,div_l_n16
	inc	a
div_l_n06: ; bit 6, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	or	a
	exx
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	c,div_l_n07
	dec	a
div_l_n17: ; bit 7, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	c,div_l_n18
	inc	a
div_l_n08: ; done, above
	add	a,a
	dec	a
	or	a
	ret

div_l_n1: ; bit 0, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	c,div_l_n11
	inc	a
div_l_n01: ; bit 1, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	or	a
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	c,div_l_n02
	dec	a
div_l_n12: ; bit 2, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	c,div_l_n13
	inc	a
div_l_n03: ; bit 3, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	or	a
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	c,div_l_n04
	dec	a
div_l_n14: ; bit 4, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	c,div_l_n15
	inc	a
div_l_n05: ; bit 5, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	or	a
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	c,div_l_n06
	dec	a
div_l_n16: ; bit 6, below
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	add	hl,bc
	exx
	adc	hl,bc
	exx
	jp	c,div_l_n17
	inc	a
div_l_n07: ; bit 7, above
	add	a,a
	adc	hl,hl
	exx
	adc	hl,hl
	exx
	or	a
	sbc	hl,bc
	exx
	sbc	hl,bc
	exx
	jp	c,div_l_n08
	dec	a
div_l_n18: ; done, below
	add	a,a
	;inc	a
	;dec	a			; compensation
	scf
	ret
.endif

; debugging

print_hlde:
	call	print_word
	ld	a,':
	call	print_char
	ex	de,hl
	call	print_word
	ex	de,hl
	ld	a,0xd
	call	print_char
	ld	a,0xa
	jp	print_char

print_hlhldede:
	exx
	call	print_word
	exx
	call	print_word
	ld	a,':
	call	print_char
	exx
	ex	de,hl
	call	print_word
	ex	de,hl
	exx
	ex	de,hl
	call	print_word
	ex	de,hl
	ld	a,0xd
	call	print_char
	ld	a,0xa
	jp	print_char

print_trace: ; print af, bc, hl':de, de':hl, (sp+2):(sp), sp
	call	print_trace2
	ld	a,(bc)
	inc	bc
	ld	l,a
	jp	(hl)
print_trace2:
	push	hl
	push	af
	pop	hl
	push	hl
	call	print_word
	ld	a,' 
	call	print_char
	ld	l,c
	ld	h,b
	call	print_word
	ld	a,' 
	call	print_char
	exx
	push	hl
	exx
	pop	hl
	call	print_word
	ld	a,':
	call	print_char
	ld	l,e
	ld	h,d
	call	print_word
	ld	a,' 
	call	print_char
	exx
	push	de
	exx
	pop	hl
	call	print_word
	ld	a,':
	call	print_char
	pop	af
	pop	hl
	push	hl
	push	af
	call	print_word
	ld	a,' 
	call	print_char
	ld	hl,8
	add	hl,sp
	ld	a,(hl)
	inc	hl
	ld	h,(hl)
	ld	l,a
	call	print_word
	ld	a,':
	call	print_char
	ld	hl,6
	add	hl,sp
	ld	a,(hl)
	inc	hl
	ld	h,(hl)
	ld	l,a
	call	print_word
	ld	a,' 
	call	print_char
	ld	hl,6
	add	hl,sp
	call	print_word
	ld	a,0xd
	call	print_char
	ld	a,0xa
	call	print_char
	pop	af
	pop	hl
	ret

print_word:
	push	af
	ld	a,h
	call	print_byte
	ld	a,l
	call	print_byte
	pop	af
	ret

print_byte:
	push	af
	push	af
	rrca
	rrca
	rrca
	rrca
	call	print_digit
	pop	af
	call	print_digit
	pop	af
	ret

print_digit:
	push	de
	push	hl
	and	0xf
	ld	e,a
	ld	d,0
	ld	hl,digits
	add	hl,de
	ld	a,(hl)
	pop	hl
	pop	de
print_char:
	push	bc
	push	de
	push	hl
	ld	e,a
	ld	c,2
	call	5
	pop	hl
	pop	de
	pop	bc
	ret

digits:
	.ascii	'0123456789abcdef'

; sm code

sm_main:
	; create stack frame
	.db	<page0_stkadj
	.dw	-4

	; push argument
	.db	<page0_imm_w
	.dw	7

	; push result pointer
	.db	<page1_page0
	.db	<page0_stkptr
	.dw	2

	; call sm_factorial(argument)
	.db	<page1_page0
	.db	<page0_imm_call
	.dw	sm_factorial
	.dw	4

	; let i = 0
	.db	<page0_imm_w
	.dw	0
	.db	<page1_stkst_w
	.dw	2;+2

digit_loop:
	; while i < 5
	.db	<page0_stkld_w
	.dw	2;+2
	.db	<page1_imm_cmp_sw
	.dw	5
	.db	<page0_jge
	.dw	digit_loope

	; get current value
	.db	<page0_stkld_w
	.dw	0;+2

	; get place value
	.db	<page1_page0
	.db	<page0_stkld_w
	.dw	4;+2
	.db	<page1_imm_sl_w
	.dw	1
	.db	<page1_imm_add_w
	.dw	place_values
	.db	<page1_ld_w

	; divide by place value
	.db	<page1_div_sw

	; replace current value with remainder
	.db	<page1_stkst_w
	.dw	2;+2

	; print quotient plus '0
	.db	<page0_page1
	.db	<page1_imm_add_w
	.dw	'0
	.db	<page1_page0
	.db	<page0_imm_call
	.dw	sm_print_char
	.dw	2

	; ++i
	.db	<page0_stkld_w
	.dw	2;+2
	.db	<page1_imm_add_w
	.dw	1
	.db	<page1_stkst_w
	.dw	2;+2

	; loop
	.db	<page0_imm_jmp
	.dw	digit_loop

digit_loope:
	; print cr
	.db	<page0_imm_w
	.dw	0xd
	.db	<page1_page0
	.db	<page0_imm_call
	.dw	sm_print_char
	.dw	2

	; print lf
	.db	<page0_imm_w
	.dw	0xa
	.db	<page1_page0
	.db	<page0_imm_call
	.dw	sm_print_char
	.dw	2

	; enlarge stack frame
	.db	<page0_stkadj
	.dw	-2

	; push argument
	.db	<page0_imm_l
	.dw	12,0

	; push result pointer
	.db	<page2_page0
	.db	<page0_stkptr
	.dw	4

	; call sm_factorial(argument)
	.db	<page1_page0
	.db	<page0_imm_call
	.dw	sm_factorial2
	.dw	6

	; let i = 0
	.db	<page0_imm_w
	.dw	0
	.db	<page1_stkst_w
	.dw	4;+2

digit_loop2:
	; while i < 10
	.db	<page0_stkld_w
	.dw	4;+2
	.db	<page1_imm_cmp_sw
	.dw	10
	.db	<page0_jge
	.dw	digit_loope2

	; get current value
	.db	<page0_stkld_l
	.dw	0;+2

	; get place value
	.db	<page2_page0
	.db	<page0_stkld_w
	.dw	8;+2
	.db	<page1_imm_sl_w
	.dw	2
	.db	<page1_imm_add_w
	.dw	place_values2
	.db	<page1_ld_l

	; divide by place value
	.db	<page2_div_sl

	; replace current value with remainder
	.db	<page2_stkst_l
	.dw	4;+2

	; print quotient plus '0
	.db	<page0_page1
	.db	<page1_imm_add_w
	.dw	'0
	.db	<page1_page0
	.db	<page0_imm_call
	.dw	sm_print_char
	.dw	4 ; cheating -- kill hi word of long too

	; ++i
	.db	<page0_stkld_w
	.dw	4;+2
	.db	<page1_imm_add_w
	.dw	1
	.db	<page1_stkst_w
	.dw	4;+2

	; loop
	.db	<page0_imm_jmp
	.dw	digit_loop2

digit_loope2:
	; print cr
	.db	<page0_imm_w
	.dw	0xd
	.db	<page1_page0
	.db	<page0_imm_call
	.dw	sm_print_char
	.dw	2

	; print lf
	.db	<page0_imm_w
	.dw	0xa
	.db	<page1_page0
	.db	<page0_imm_call
	.dw	sm_print_char
	.dw	2

	; destroy stack frame
	.db	<page0_stkadj
	.dw	6

	; return
	.db	<page0_ret

place_values:
	.dw	10000,1000,100,10,1
place_values2:
	.dw	0xca00,0x3b9a ; 1000000000
	.dw	0xe100,0x5f5 ; 100000000
	.dw	0x9680,0x98 ; 10000000
	.dw	0x4240,0xf ; 1000000
	.dw	0x86a0,1 ; 100000
	.dw	10000,0
	.dw	1000,0
	.dw	100,0
	.dw	10,0
	.dw	1,0

sm_factorial:
	; get argument
	.db	<page0_stkld_w
	.dw	4;+2

	; is argument < 2?
	.db	<page1_imm_cmp_sw
	.dw	2
	.db	<page0_jlt
	.dw	1$

	; no, set up for *result =
	.db	<page0_stkld_w
	.dw	2;+2

	; get argument
	.db	<page1_page0
	.db	<page0_stkld_w
	.dw	6;+2

	; subtract 1
	.db	<page1_imm_add_w
	.dw	-1

	; push result pointer
	.db	<page1_page0
	.db	<page0_stkptr
	.dw	0

	; call sm_factorial(argument - 1)
	.db	<page1_page0
	.db	<page0_imm_call
	.dw	sm_factorial
	.dw	2

	; get argument
	.db	<page0_stkld_w
	.dw	8;+2

	; multiply
	.db	<page1_mul_w

	; set *result = sm_factorial(argument - 1) * argument
	.db	<page1_st_w

	; return
	.db	<page0_ret

1$:
	; yes, set up for *result =
	.db	<page0_stkld_w
	.dw	2;+2

	; set *result = 1
	.db	<page1_page0
	.db	<page0_imm_w
	.dw	1
	.db	<page1_st_w

	; return
	.db	<page0_ret

sm_factorial2:
	; get argument
	.db	<page0_stkld_l
	.dw	4;+2

	; is argument < 2?
	.db	<page2_imm_cmp_sl
	.dw	2
	.dw	0
	.db	<page0_jlt
	.dw	1$

	; no, set up for *result =
	.db	<page0_stkld_w
	.dw	2;+2

	; get argument
	.db	<page1_page0
	.db	<page0_stkld_l
	.dw	6;+2

	; subtract 1
	.db	<page2_imm_add_l
	.dw	-1,-1

	; push result pointer
	.db	<page2_page0
	.db	<page0_stkptr
	.dw	0

	; call sm_factorial(argument - 1)
	.db	<page1_page0
	.db	<page0_imm_call
	.dw	sm_factorial2
	.dw	2

	; get argument
	.db	<page0_stkld_l
	.dw	10;+2

	; multiply
	.db	<page2_mul_l

	; set *result = sm_factorial(argument - 1) * argument
	.db	<page2_st_l

	; return
	.db	<page0_ret

1$:
	; yes, set up for *result =
	.db	<page0_stkld_w
	.dw	2;+2

	; set *result = 1
	.db	<page1_page0
	.db	<page0_imm_l
	.dw	1,0
	.db	<page2_st_l

	; return
	.db	<page0_ret

sm_print_char:
	.db	<page0_esc
	ld	hl,2
	add	hl,sp
	ld	a,(hl)
	call	print_char
	jp	page0_ret