ASM-Tricks

**eukalyptus**

Teil 1: extrem schnelle Sinus Funktion
Original: http://music.columbia.edu/pipermail/musi…ber/046673.html

Die Funktion f=X^2 ergibt eine Parabel; das kann man nützen, um näherungsweise eine Sinuskurve zu berechnen.
Der ASM-Code dazu ist sehr kurz und sieht so aus:

Aufgerufen wird der Code mit folgender Funktion:

AutoIt

Func _Sin($fX)
	Local $aResult = DllCallAddress("int", $pASM_Sin, "uint", $fX * 2 ^ 31 / $cPI)
	Return $aResult[0] / -2 ^ 31
EndFunc   ;==>_Sin

Das TestScript dazu ergibt dieses Bild:
SinCos_1.au3
SinCos_1.png

Sieht schon ganz OK aus! Allerdings nicht ganz...
Wenn man damit einen Kreis zeichnen möchte sieht man besser, dass eine Parabel doch keine Sinuskurve ist:
SinCos_4.au3
SinCos_4.png

Es geht natürlich noch besser, um nicht zu sagen: Fast perfekt!
SinCos_2.au3
SinCos_2.png

Nun wollen wir testen, wie schnell die Funktionen im Vergleich zu der Sinusberechnung der FPU ist.
Dieses Script erzeugt eine Wav-Datei von mehreren Sekunden in den 3 Varianten FPU, Parabel, und "Fast Perfekt":
SinCos_3.au3

Wir sehen, dass die ASM-Versionen 10x schneller sind, als die Berechnung der FPU!
Weiters kann man hören, dass die Parabel-Version harmonische Obertöne erzeugt, siehe FFT-Analyse im nächsten Post!

Fazit: Die ParabelVersion ist am schnellsten, jedoch sehr ungenau. Das reicht etwa für Animationen, aber nicht für Sound. (Außer man kann mit den harmonischen Obertönen leben)
Die Version "Fast Perfekt" ist wirklich nahezu perfekt! Nur ein einziger Oberton mit -70dB, das ist zu vernachlässigen. Der Geschwindigkeitsvorteil ist wirklich enorm!
Nachteil bei beiden Versionen ist, dass man etwas tricksen muss, um am Ende das gewünschte Ergebnis zu erhalten. Das kann aber auch ein Vorteil sein: Siehe SinCos_3.au3: Bei der Variable $fPhaseInc kann man PI komplett wegkürzen.

**eukalyptus**

Hier die FFT-Analyse der 3 Wav-Dateien: FFT_1.png FFT_2.png FFT_3.png

Wie funktioniert eigentlich die Parabel-Version?
Ich hab die FUnktion in AutoIt nachgebaut:

AutoIt

Func _Sin($fX)
	Local $tUInt64 = DllStructCreate("uint64")
	Local $tUInt = DllStructCreate("uint;uint", DllStructGetPtr($tUInt64))
	Local $tInt = DllStructCreate("int;int", DllStructGetPtr($tUInt64))


	DllStructSetData($tUInt, 1, $fX * 2 ^ 31 / $cPI)
	Local $ebx = DllStructGetData($tInt, 1) 			;-> Sin_1.png


	DllStructSetData($tUInt, 1, 0x80000000 + $ebx * 2)
	Local $eax = DllStructGetData($tInt, 1) 			;-> Sin_2.png


	$ebx = BitShift($ebx, 31)


	DllStructSetData($tUInt64, 1, $eax * $eax)
	Local $edx = DllStructGetData($tUInt, 2) 			;-> Sin_3.png


	DllStructSetData($tUInt, 1, 0x80000000 + $edx * 2)
	$eax = DllStructGetData($tInt, 1) 					;-> Sin_4.png


	$eax = BitXOR($eax, $ebx) 							;-> Sin_5.png


	Return $eax / -2 ^ 31
EndFunc

Alles anzeigen

Bei den einzelnen Schritten kommt man nun zu diesen Outputs:
Sin_1.png Sin_2.png Sin_3.png Sin_4.png Sin_5.png

Erklärung kommt evtl später

**eukalyptus**

Integer Division

Zuerst noch ganz kurz Multiplikation:
Man sollte prüfen, ob sich eine Multiplikation in mehrere Shifts zerlegen lässt.

Shift_Left_X entspricht 2^x
shl 1 = *2
shl 2 = *4
shl 3 = *8
usw...

z.B.: X*10 = (X*2) + (X*8)

AutoIt

;#include "FASM.au3"
#AutoIt3Wrapper_UseX64=n


;Global $pASM_Test = _FASM_StructCreateBCA16(_FASM_Compile("_ASM_Test_32"))
Global $pASM_Test = _StructCreateBCA16("0x8B44240489C2C1E003D1E201D0C20400")




#ASM _ASM_Test_32
#	use32


#	mov eax, [esp+4]


#	mov edx, eax
#	shl eax, 3
#	shl edx, 1
#	add eax, edx


#	ret 4
#ASMEND








For $i = 0 To 100
	ConsoleWrite("> " & $i & " * 10 = " & DllCallAddress("int", $pASM_Test, "int", $i)[0] & @CRLF)
Next




Func _StructCreateBCA16($bBinaryCode)
	Local $iSize = BinaryLen($bBinaryCode)
	Local $aResult = DllCall("kernel32.dll", "ptr", "VirtualAlloc", "ptr", 0, "ulong_ptr", $iSize + 16, "dword", 0x00001000, "dword", 0x00000040)
	If @error Or Not $aResult[0] Then Return SetError(1, 0, False)
	Local $pStruct = Number($aResult[0])
	$pStruct = $pStruct + 16 - Mod($pStruct, 16)
	Local $tStruct = DllStructCreate("byte[" & $iSize & "];", $pStruct)
	DllStructSetData($tStruct, 1, $bBinaryCode)
	Return $pStruct
EndFunc   ;==>_FASM_StructCreateBCA16

Alles anzeigen

Wie Minx sehr schön gezeigt hat, kann man eine Division durch eine Multiplikation mit einer Konstanten erreichen.
Ich habe dazu mein Helper-Script etwas grafisch aufgemotzt:

AutoIt

#include <GUIConstantsEx.au3>
#include <WindowsConstants.au3>
#include <GuiSlider.au3>
#include <WinAPIShellEx.au3>
#include <GuiRichEdit.au3>




#AutoIt3Wrapper_UseX64=n
Global $pASM_BinFrac = _StructCreateBCA16("0x5356578B7424108B4C24148B7C24188B5C241C83EC08890C24802E3083C60183E9017FF5897424048B0C248B74240430E48A06D0E000E030E43C0A7C04B4012C0A880683EE0183E9017DE680C430882783C70183EB017FD083C4085F5E5BC21000")
Global $pASM_BinInt = _StructCreateBCA16("0x5356578B7424108B4C24148B7C241883EC08890C2489742404802E3083C60183E9017FF5BB4000000083C7408B0C248B7424046631D28A06666BD20A00D066BA010020C2D0E8880683C60183E9017FE680C23083EF01881783EB017FCF83C4085F5E5BC20C00")
Global $pASM_Inv = _StructCreateBCA16("0x5356578B7C24108B7424148B5424188B4C241C8B44242083EC10890C2489742404895424088944240C802A3083C20183E9017FF5C606018B0C248B7424048B5424088A063A027F0F7C4483C60183C20183E9017FEDEB58C607318B0C248B7424048B54240801CE01CA30DB30E483EE0183EA018A062A0228E0881E30E43C007D04B401040288C383E9017FE1EB17C607308B0C248B7424048A4601880683C60183E9017FF383C701836C240C017F8883C4105F5E5BC21400")
Global $pASM_InvDec = _StructCreateBCA16("0x5356578B7C24108B7424148B4C241883EC08890C24897C240489CB802E3083C60183E9017FF583EE018B0C248B7C24048A0600076631D28A07666BD20A00D066BA010020C2D0E8880783C70183E9017DE683EB017FD08B4C24248B7C240401CF83C701B800000000803F057C21B801000000B70183EF018A1F00FB30FF80FB0A7C0580EB0AB701881F83E9017DE68B0C248B7C240480073083C70183E9017DF58B7C2404C6072E83C4085F5E5BC21000")


Global $pASM_Test_M1_I = _StructCreateBCA16("0x535657558B6C24148B5C24188B4C241C8B742420660F6E742424660F6E7C242883EC08660F7E3424660F7E7C2404BFC00FFC0089F031D2F7F5660F6EF089F0F7E3D3EA660F7EF039D0750583EF017F24660F7EFF5183EC0C8944240889542404893424FFD75983F8007418660F6EFFBFC00FFC0083C6013B342475B7B800000000EB05B80100000083C4085D5F5E5BC21800")
Global $pASM_Test_M1_F = _StructCreateBCA16("0x535657F30F7E4C24108B5C24188B4C241C8B742420660F6E742424660F6E7C2428B800003043660F6ED0660F73FA0483EC10660F7E3424660F7E7C24040FAE5C24088B4424086625FF9F660D00208944240C0FAE54240CBFC00FFC00660F6EC6660FEBC2F20F5CC2F20F5EC1F20F58C2660FEFC289F0F7E3D3EA660F7EC039D0750583EF017F40660F7EFF5183EC10660FD61424660FD64C240883EC0C8944240889542404893424FFD7F30F7E4C2408F30F7E142483C4105983F8007418660F6EFFBFC00FFC0083C6013B3424758DB800000000EB05B8010000000FAE54240883C4105F5E5BC21C00")
Global $pASM_Test_M2_I = _StructCreateBCA16("0x535657558B6C24148B5C24188B4C241C8B742420660F6E742424660F6E7C242883EC08660F7E3424660F7E7C2404BFC00FFC0089F031D2F7F5660F6EF089F0F7E301F2D3EA660F7EF039D0750583EF017F24660F7EFF5183EC0C8944240889542404893424FFD75983F8007418660F6EFFBFC00FFC0083C6013B342475B5B800000000EB05B80100000083C4085D5F5E5BC21800")
Global $pASM_Test_M2_F = _StructCreateBCA16("0x535657F30F7E4C24108B5C24188B4C241C8B742420660F6E742424660F6E7C2428B800003043660F6ED0660F73FA0483EC10660F7E3424660F7E7C24040FAE5C24088B4424086625FF9F660D00208944240C0FAE54240CBFC00FFC00660F6EC6660FEBC2F20F5CC2F20F5EC1F20F58C2660FEFC289F0F7E301F2D3EA660F7EC039D0750583EF017F40660F7EFF5183EC10660FD61424660FD64C240883EC0C8944240889542404893424FFD7F30F7E4C2408F30F7E142483C4105983F8007418660F6EFFBFC00FFC0083C6013B3424758BB800000000EB05B8010000000FAE54240883C4105F5E5BC21C00")
Global $pASM_Test_M3_I = _StructCreateBCA16("0x535657558B6C24148B5C24188B4C241C8B742420660F6E742424660F6E7C242883EC08660F7E3424660F7E7C2404BFC00FFC0089F031D2F7F5660F6EF089F0F7E331C001F283D000C1C804D3EA01C2660F7EF039D0750583EF017F24660F7EFF5183EC0C8944240889542404893424FFD75983F8007418660F6EFFBFC00FFC0083C6013B342475ABB800000000EB05B80100000083C4085D5F5E5BC21800")
Global $pASM_Test_M3_F = _StructCreateBCA16("0x535657F30F7E4C24108B5C24188B4C241C8B742420660F6E742424660F6E7C2428B800003043660F6ED0660F73FA0483EC10660F7E3424660F7E7C24040FAE5C24088B4424086625FF9F660D00208944240C0FAE54240CBFC00FFC00660F6EC6660FEBC2F20F5CC2F20F5EC1F20F58C2660FEFC289F0F7E331C001F283D000C1C804D3EA01C2660F7EC039D0750583EF017F40660F7EFF5183EC10660FD61424660FD64C240883EC0C8944240889542404893424FFD7F30F7E4C2408F30F7E142483C4105983F8007418660F6EFFBFC00FFC0083C6013B34247581B800000000EB05B8010000000FAE54240883C4105F5E5BC21C00")




Opt("MustDeclareVars", 1)
Opt("GUIOnEventMode", 1)


Global $iWidth = 800
Global $iHeight = 740


Global $hGui = GUICreate("MagicDiv by Eukalyptus", $iWidth, $iHeight)
GUISetOnEvent($GUI_EVENT_CLOSE, "_Exit")


GUICtrlCreateLabel("Divisor:", 10, 13, 80, 20, BitOR(0x0002, 0x0200))
Global $cIP_DivI = GUICtrlCreateInput("10", 100, 10, 100, 26, BitOR(0x0002, 0x2000))
GUICtrlSetFont(-1, 12)
GUICtrlCreateLabel(".", 200, 13, 10, 20, BitOR(0x0001, 0x0200))
GUICtrlSetFont(-1, 12, 400, 0, "Lucida Console")
Global $cIP_DivF = GUICtrlCreateInput("0", 210, 10, 120, 26, 0x2000)
GUICtrlSetFont(-1, 12)
GUICtrlSetState(-1, $GUI_DISABLE)


Global $cCB_Frac = GUICtrlCreateCheckbox("Enable Fractional", 360, 13, 120, 20)
GUICtrlSetOnEvent(-1, "_EnableFrac")


GUICtrlCreateLabel("MagicNumber-Offset:", 500, 13, 120, 20, BitOR(0x0002, 0x0200))
Global $cIP_Offset = GUICtrlCreateInput("0", 630, 10, 60, 26, BitOR(0x0002, 0x2000, 0x0800))
GUICtrlSetFont(-1, 12)
GUICtrlCreateUpdown(-1)
GUICtrlSetLimit(-1, 100, -100)
GUICtrlSetOnEvent(-1, "_SetOffset")






GUICtrlCreateLabel("Inverse Bin:", 10, 50, 70, 20, BitOR(0x0002, 0x0200))
GUICtrlCreateLabel("0.", 90, 50, 10, 20, BitOR(0x0002, 0x0200))
Global $cIP_InvB = GUICtrlCreateInput("", 100, 50, $iWidth - 120, 20, 0x0800)
GUICtrlCreateLabel("Inverse Dec:", 10, 80, 70, 20, BitOR(0x0002, 0x0200))
GUICtrlCreateLabel("0.", 90, 80, 10, 20, BitOR(0x0002, 0x0200))
Global $cIP_InvD = GUICtrlCreateInput("", 100, 80, $iWidth - 120, 20, 0x0800)


Global $aET_ASM[3][3]
Global $iTmpW = ($iWidth - 110) * 0.5
Global $iTmpY = 120, $iTmpH = 100
For $y = 0 To 2
	$iTmpH += 27 * $y
	GUICtrlCreateLabel("ASM X86  Method  " & $y + 1 & "   (result in edx)", 100, $iTmpY, $iTmpW - 10, 15)
	GUICtrlSetFont(-1, 8)
	GUICtrlCreateLabel("ASM X64  Method  " & $y + 1 & "   (result in rdx)", 100 + $iTmpW, $iTmpY, $iTmpW - 10, 15)
	GUICtrlSetFont(-1, 8)
	$aET_ASM[$y][0] = GUICtrlCreateEdit("", 100, $iTmpY + 15, $iTmpW - 10, $iTmpH - 30, 0x0800)
	GUICtrlSetFont(-1, 10, 400, 0, "Lucida Console")
	GUICtrlSetColor(-1, 0x0000FF)
	$aET_ASM[$y][1] = GUICtrlCreateEdit("", 100 + $iTmpW, $iTmpY + 15, $iTmpW - 10, $iTmpH - 30, 0x0800)
	GUICtrlSetFont(-1, 10, 400, 0, "Lucida Console")
	GUICtrlSetColor(-1, 0x0000FF)
	$aET_ASM[$y][2] = GUICtrlCreateButton("TEST", 10, $iTmpY + 15, 80, 25)
	GUICtrlSetOnEvent(-1, "_Test")
	$iTmpY += $iTmpH
Next


GUICtrlCreateGroup("TEST", 10, $iTmpY, $iWidth - 20, $iHeight - $iTmpY - 10)
GUICtrlCreateLabel("Range:", 20, $iTmpY + 20, 70, 50, BitOR(0x0002, 0x0200))


GUICtrlCreateLabel("0x00000000", 110, $iTmpY + 10, 100, 10, 0x0200)
GUICtrlSetFont(-1, 7)
GUICtrlCreateLabel("0xFFFFFFFF", $iWidth - 130, $iTmpY + 10, 100, 10, BitOR(0x0002, 0x0200))
GUICtrlSetFont(-1, 7)


Global $cSL_Range = GUICtrlCreateSlider(100, $iTmpY + 20, $iWidth - 120, 30, BitOR(0x0080, 0x0004, 0x20, 0x40))
GUICtrlSetLimit(-1, 1000)
_GUICtrlSlider_SetSelEnd($cSL_Range, 1000)




OnAutoItExitRegister("OnAutoItExit")
Global $hSubClass = DllCallbackRegister("_Subclass", "lresult", "hwnd;uint;wparam;lparam;uint_ptr;dword_ptr")
Global $pSubClass = DllCallbackGetPtr($hSubClass)
_WinAPI_SetWindowSubclass(GUICtrlGetHandle($cSL_Range), $pSubClass, 1000, 0)




Global $cIP_RangeLO = GUICtrlCreateInput("0", 110, $iTmpY + 55, 80, 20, BitOR(0x0002, 0x2000))
GUICtrlSetOnEvent(-1, "_SetRange")
GUICtrlCreateLabel("...", 190, $iTmpY + 55, 25, 20, BitOR(0x0001, 0x0200))
GUICtrlSetFont(-1, 8, 400, 0, "Lucida Console")
Global $cIP_RangeHI = GUICtrlCreateInput("4294967295", 215, $iTmpY + 55, 80, 20, BitOR(0x0002, 0x2000))
GUICtrlSetOnEvent(-1, "_SetRange")




GUICtrlCreateLabel("Max Errors:", 300, $iTmpY + 55, 100, 20, BitOR(0x0002, 0x0200))
Global $cIP_MaxError = GUICtrlCreateInput("10", 410, $iTmpY + 55, 60, 20, BitOR(0x0002, 0x2000, 0x0800))
GUICtrlCreateUpdown(-1)
GUICtrlSetLimit(-1, 999, 1)
GUICtrlSetOnEvent(-1, "_SetMaxError")




Global $cIP_Info = GUICtrlCreateInput("", $iWidth - 190, $iTmpY + 55, 160, 20, BitOR(0x0002, 0x0800))
GUICtrlSetFont(-1, 11, 400, 0, "Lucida Console")


Global $cCB_Stop = GUICtrlCreateCheckbox("Stop", 520, $iTmpY + 55, 60, 20, 0x1000)


$iTmpY += 85
Global $cRE_Info = _GUICtrlRichEdit_Create($hGui, "", 20, $iTmpY, $iWidth - 40, $iHeight - $iTmpY - 20, BitOR($ES_WANTRETURN, $ES_MULTILINE, $WS_VSCROLL))


GUIRegisterMsg($WM_COMMAND, "WM_COMMAND")
GUISetState()






Global $hCallBack = DllCallbackRegister("_CB_Progress", "uint", "uint;uint;uint;")




Global $iErrorCnt = 0, $iErrorMax = 10
Global $iMDiv32, $iMDiv33, $iMShft, $fDiv
Global $bCalcMagic = False
Global $bCalcInv = True






While Sleep(10)
	If $bCalcInv Then
		$bCalcInv = False
		_CalcInv()
	EndIf
	If $bCalcMagic Then
		$bCalcMagic = False
		_CalcMagic()
	EndIf
WEnd








Func _SetOffset()
	$bCalcMagic = True
EndFunc   ;==>_SetOffset






Func _SetMaxError()
	$iErrorMax = Int(GUICtrlRead($cIP_MaxError))
EndFunc   ;==>_SetMaxError






Func _Info($sText, $iColor, $bBold = False, $iSize = 10)
	Local $iPos = StringLen(_GUICtrlRichEdit_GetText($cRE_Info))


	_GUICtrlRichEdit_AppendText($cRE_Info, $sText)
	_GUICtrlRichEdit_SetSel($cRE_Info, $iPos, -1)


	Local $tCharFormat = DllStructCreate("struct; uint cbSize; dword dwMask; dword dwEffects; long yHeight; long yOffset; INT crCharColor; byte bCharSet; byte bPitchAndFamily; wchar szFaceName[32]; endstruct")
	DllStructSetData($tCharFormat, 1, DllStructGetSize($tCharFormat))
	DllStructSetData($tCharFormat, 2, BitOR($CFM_BOLD, $CFM_COLOR, $CFM_FACE, $CFM_SIZE))
	If $bBold Then DllStructSetData($tCharFormat, 3, $CFE_BOLD)


	DllStructSetData($tCharFormat, 4, Int($iSize * 20))
	DllStructSetData($tCharFormat, 6, $iColor)
	DllStructSetData($tCharFormat, 9, "Lucida Console")


	_SendMessage($cRE_Info, $EM_SETCHARFORMAT, $SCF_SELECTION, $tCharFormat, 0, "wparam", "struct*")


	_GUICtrlRichEdit_Deselect($cRE_Info)
EndFunc   ;==>_Info








Func _Test()
	$iErrorCnt = 0


	Local $iMethod, $bFrac = False
	For $i = 0 To 2
		If @GUI_CtrlId = $aET_ASM[$i][2] Then $iMethod = $i + 1
	Next


	Local $sMethod = String($iMethod)
	$fDiv = GUICtrlRead($cIP_DivI)
	If GUICtrlRead($cCB_Frac) = 1 Then
		$fDiv &= "." & GUICtrlRead($cIP_DivF)
		$sMethod &= " Fractional"
		$bFrac = True
	Else
		$sMethod &= " Integer"
	EndIf


	Local $iRangeLO = GUICtrlRead($cIP_RangeLO)
	Local $iRangeHI = GUICtrlRead($cIP_RangeHI)
	GUICtrlSetData($cSL_Range, $iRangeLO / 4294967.296)
	GUICtrlSetStyle($cSL_Range, BitOR(0x0004, 0x20, 0x40))


	GUICtrlSetState($cCB_Stop, $GUI_UNCHECKED)


	GUICtrlSetState($cSL_Range, $GUI_DISABLE)


	_GUICtrlRichEdit_SetText($cRE_Info, "")
	_Info("Testing MagicDiv" & @CRLF, 0xAA0000, True, 12)
	_Info("Method " & $sMethod & @CRLF, 0xAA0000)
	_Info("Dividend = ", 0xAA0000)
	_Info("[" & $iRangeLO & "..." & $iRangeHI & "]" & @CRLF, 0x008800)
	_Info("Divisor = ", 0xAA0000)
	_Info($fDiv & @CRLF & @CRLF, 0x008800, True)


	Local $aResult
	Switch $iMethod
		Case 1
			Switch $bFrac
				Case True
					$aResult = DllCallAddress("uint", $pASM_Test_M1_F, "double", $fDiv, "uint", $iMDiv32, "uint", $iMShft, "uint", $iRangeLO, "uint", $iRangeHI + 1, "ptr", DllCallbackGetPtr($hCallBack))
				Case Else
					$aResult = DllCallAddress("uint", $pASM_Test_M1_I, "uint", $fDiv, "uint", $iMDiv32, "uint", $iMShft, "uint", $iRangeLO, "uint", $iRangeHI + 1, "ptr", DllCallbackGetPtr($hCallBack))
			EndSwitch


		Case 2
			Switch $bFrac
				Case True
					$aResult = DllCallAddress("uint", $pASM_Test_M2_F, "double", $fDiv, "uint", $iMDiv33, "uint", $iMShft+1, "uint", $iRangeLO, "uint", $iRangeHI + 1, "ptr", DllCallbackGetPtr($hCallBack))
				Case Else
					$aResult = DllCallAddress("uint", $pASM_Test_M2_I, "uint", $fDiv, "uint", $iMDiv33, "uint", $iMShft+1, "uint", $iRangeLO, "uint", $iRangeHI + 1, "ptr", DllCallbackGetPtr($hCallBack))
			EndSwitch


		Case 3
			Switch $bFrac
				Case True
					$aResult = DllCallAddress("uint", $pASM_Test_M3_F, "double", $fDiv, "uint", $iMDiv33, "uint", $iMShft+1, "uint", $iRangeLO, "uint", $iRangeHI + 1, "ptr", DllCallbackGetPtr($hCallBack))
				Case Else
					$aResult = DllCallAddress("uint", $pASM_Test_M3_I, "uint", $fDiv, "uint", $iMDiv33, "uint", $iMShft+1, "uint", $iRangeLO, "uint", $iRangeHI + 1, "ptr", DllCallbackGetPtr($hCallBack))
			EndSwitch


	EndSwitch


	GUICtrlSetState($cSL_Range, $GUI_ENABLE)
	GUICtrlSetStyle($cSL_Range, BitOR(0x0080, 0x0004, 0x20, 0x40))


	If $iErrorCnt = 0 And $aResult[0] = 0 Then
		_Info("...OK..." & @CRLF, 0x008800, True, 12)
		GUICtrlSetData($cIP_Info, "100%   0x" & Hex($iRangeHI, 8))
	Else
		_Info("...Error or Stop..." & @CRLF, 0xFF, True, 12)
	EndIf


	GUICtrlSetState($cCB_Stop, $GUI_UNCHECKED)
	_GUICtrlRichEdit_SetSel($cRE_Info, 0, 0)
EndFunc   ;==>_Test










Func _CB_Progress($iX, $iMDiv, $iDiv)
	If GUICtrlRead($cCB_Stop) = 1 Then Return False


	GUICtrlSetData($cSL_Range, $iX / 4294967.296)


	Local $iRangeLO = GUICtrlRead($cIP_RangeLO)
	Local $iRangeHI = GUICtrlRead($cIP_RangeHI)
	Local $iPerc = ($iX - $iRangeLO) / ($iRangeHI - $iRangeLO) * 100
	GUICtrlSetData($cIP_Info, Floor($iPerc) & "%   0x" & Hex($iX, 8))


	If $iDiv <> $iMDiv Then
		$iErrorCnt += 1
		_Info("Error " & $iErrorCnt & "/" & $iErrorMax & " at number ", 0xFF)
		_Info("0x" & Hex($iX, 8) & " => " & $iX & " / " & $fDiv & " = " & $iX / $fDiv & " (AutoIt)" & @CRLF, 0xAA0000)
		_Info(@TAB & "Result ASM: ", 0xAA0000)
		_Info($iDiv & " ", 0x008800)
		_Info(@TAB & "Result MagicDiv: ", 0xAA0000)
		_Info($iMDiv & @CRLF & @CRLF, 0xFF)
	EndIf


	Return $iErrorCnt < $iErrorMax
EndFunc   ;==>_CB_Progress
















Func _SetRange()
	Local $iRange = Number(GUICtrlRead(@GUI_CtrlId))
	Switch @GUI_CtrlId
		Case $cIP_RangeLO
			If $iRange > Number(GUICtrlRead($cIP_RangeHI)) Then
				$iRange = Number(GUICtrlRead($cIP_RangeHI))
			ElseIf $iRange < 0 Then
				$iRange = 0
			EndIf
			GUICtrlSetData(@GUI_CtrlId, $iRange)
			_GUICtrlSlider_SetSelStart($cSL_Range, $iRange * 1000 / 4294967295)
			_GUICtrlSlider_SetSelEnd($cSL_Range, Number(GUICtrlRead($cIP_RangeHI)) * 1000 / 4294967295)


		Case $cIP_RangeHI
			If $iRange < Number(GUICtrlRead($cIP_RangeLO)) Then
				$iRange = Number(GUICtrlRead($cIP_RangeLO))
			ElseIf $iRange > 4294967295 Then
				$iRange = 4294967295
			EndIf
			GUICtrlSetData(@GUI_CtrlId, $iRange)
			_GUICtrlSlider_SetSelStart($cSL_Range, Number(GUICtrlRead($cIP_RangeLO)) * 1000 / 4294967295)
			_GUICtrlSlider_SetSelEnd($cSL_Range, $iRange * 1000 / 4294967295)


	EndSwitch
EndFunc   ;==>_SetRange








Func _Subclass($hWnd, $iMsg, $wParam, $lParam, $iID, $pData)
	Local Static $iSetRange = 0


	Switch $iMsg
		Case $WM_LBUTTONDOWN
			Local $tRect = _GUICtrlSlider_GetChannelRectEx($hWnd)
			Local $iW = DllStructGetData($tRect, "Right") - DllStructGetData($tRect, "Left")
			Local $iX = BitAND($lParam, 0xFFFF) - DllStructGetData($tRect, "Left")
			Local $iRange = Round($iX / $iW * 4294967295)
			If $iRange < 0 Then
				$iRange = 0
			ElseIf $iRange > 4294967295 Then
				$iRange = 4294967295
			EndIf


			Local $aRange = _GUICtrlSlider_GetSel($hWnd)
			If IsArray($aRange) Then
				$aRange[0] *= $iW / 1000
				$aRange[1] *= $iW / 1000


				Local $iD1 = Abs($aRange[0] - $iX)
				Local $iD2 = Abs($aRange[1] - $iX)


				If $iD1 < $iD2 Then
					$iSetRange = 1
				ElseIf $iD1 > $iD2 Then
					$iSetRange = 2
				Else
					If $iX < $aRange[0] Then
						$iSetRange = 1
					Else
						$iSetRange = 2
					EndIf
				EndIf
			Else
				$iSetRange = 0
			EndIf


			Switch $iSetRange
				Case 1
					_GUICtrlSlider_SetSelStart($hWnd, $iRange / 4294967295 * 1000)
					GUICtrlSetData($cIP_RangeLO, $iRange)
				Case 2
					_GUICtrlSlider_SetSelEnd($hWnd, $iRange / 4294967295 * 1000)
					GUICtrlSetData($cIP_RangeHI, $iRange)
			EndSwitch








		Case $WM_MOUSELEAVE
			;$iSetRange = 0


		Case $WM_LBUTTONUP
			$iSetRange = 0


		Case $WM_MOUSEMOVE
			If $wParam = 1 And $iSetRange <> 0 Then
				Local $tRect = _GUICtrlSlider_GetChannelRectEx($hWnd)
				Local $iW = DllStructGetData($tRect, "Right") - DllStructGetData($tRect, "Left")
				Local $iX = BitAND($lParam, 0xFFFF) - DllStructGetData($tRect, "Left")
				Local $iRange = Round($iX / $iW * 4294967295)
				If $iRange < 0 Then
					$iRange = 0
				ElseIf $iRange > 4294967295 Then
					$iRange = 4294967295
				EndIf


				Switch $iSetRange
					Case 1
						If $iRange > Number(GUICtrlRead($cIP_RangeHI)) Then $iRange = Number(GUICtrlRead($cIP_RangeHI))
						_GUICtrlSlider_SetSelStart($hWnd, $iRange / 4294967295 * 1000)
						GUICtrlSetData($cIP_RangeLO, $iRange)


					Case 2
						If $iRange < Number(GUICtrlRead($cIP_RangeLO)) Then $iRange = Number(GUICtrlRead($cIP_RangeLO))
						_GUICtrlSlider_SetSelEnd($hWnd, $iRange / 4294967295 * 1000)
						GUICtrlSetData($cIP_RangeHI, $iRange)


				EndSwitch


			EndIf


	EndSwitch


	Return _WinAPI_DefSubclassProc($hWnd, $iMsg, $wParam, $lParam)
EndFunc   ;==>_Subclass




Func OnAutoItExit()
	_WinAPI_RemoveWindowSubclass(GUICtrlGetHandle($cSL_Range), $pSubClass, 1000)
	DllCallbackFree($pSubClass)
	DllCallbackFree($hCallBack)
EndFunc   ;==>OnAutoItExit




























Func WM_COMMAND($hWnd, $iMsg, $wParam, $lParam)
	Local $iNotifyCode = BitShift($wParam, 16)
	Local $iCtrlID = BitAND($wParam, 0xFFFF)


	Switch $iNotifyCode
		Case 0x300 ;EN_CHANGE
			Switch $iCtrlID
				Case $cIP_DivI, $cIP_DivF
					$bCalcInv = True


			EndSwitch


		Case Else
			;ConsoleWrite("! " & $hWnd & " " & $iMsg & " " & $wParam & " " & $lParam & "     " & $iNotifyCode & " " & $iCtrlID & " " & $lParam & @CRLF)


	EndSwitch


	Return $GUI_RUNDEFMSG
EndFunc   ;==>WM_COMMAND








Func _CalcMagic()
	Local $sTmp = __BinFrac(GUICtrlRead($cIP_InvD))
	Local $sBin = StringRegExpReplace($sTmp, "^0+([^0]|0$)", "\1", 1)
	Local $iShift = StringLen($sTmp) - StringLen($sBin)


	Local $iOffset = Int(GUICtrlRead($cIP_Offset))


	Local $sDiv64 = Dec(StringFormat("%016s", StringUpper(_TranslateBase(StringLeft(__FracAdd(StringLeft($sBin, 65)), 64), 2, 16)))) + $iOffset
	Local $sDiv32 = Dec(StringFormat("%08s", StringUpper(_TranslateBase(StringLeft(__FracAdd(StringLeft($sBin, 33)), 32), 2, 16)))) + $iOffset
	Local $sDiv65 = Dec(StringFormat("%016s", StringUpper(_TranslateBase(StringTrimLeft(StringLeft(__FracAdd(StringLeft($sBin, 65)), 66), 1), 2, 16)))) + $iOffset
	Local $sDiv33 = Dec(StringFormat("%08s", StringUpper(_TranslateBase(StringTrimLeft(StringLeft(__FracAdd(StringLeft($sBin, 34)), 33), 1), 2, 16)))) + $iOffset




	Local $sASM = "mov eax, [dividend]" & @CRLF & "mov ecx, 0x" & Hex($sDiv32, 8) & @CRLF & "mul ecx" & @CRLF
	If $iShift Then $sASM &= "shr edx, " & $iShift & @CRLF
	GUICtrlSetData($aET_ASM[0][0], $sASM)


	$sASM = "mov rax, [dividend]" & @CRLF & "mov rcx, 0x" & Hex($sDiv64, 16) & @CRLF & "mul rcx" & @CRLF
	If $iShift Then $sASM &= "shr rdx, " & $iShift & @CRLF
	GUICtrlSetData($aET_ASM[0][1], $sASM)


	$sASM = "mov eax, [dividend]" & @CRLF & "mov ebx, eax" & @CRLF & "mov ecx, 0x" & Hex($sDiv33, 8) & @CRLF & "mul ecx" & @CRLF & "add edx, ebx" & @CRLF
	If $iShift Then $sASM &= "shr edx, " & $iShift + 1 & @CRLF
	GUICtrlSetData($aET_ASM[1][0], $sASM)


	$sASM = "mov rax, [dividend]" & @CRLF & "mov rbx, rax" & @CRLF & "mov rcx, 0x" & Hex($sDiv65, 16) & @CRLF & "mul rcx" & @CRLF & "add rdx, rbx" & @CRLF
	If $iShift Then $sASM &= "shr rdx, " & $iShift + 1 & @CRLF
	GUICtrlSetData($aET_ASM[1][1], $sASM)


	$sASM = "mov eax, [dividend]" & @CRLF & "mov ebx, eax" & @CRLF & "mov ecx, 0x" & Hex($sDiv33, 8) & @CRLF & "mul ecx" & @CRLF & "xor eax, eax" & @CRLF & "add edx, ebx" & @CRLF & "adc eax, 0" & @CRLF
	If $iShift Then $sASM &= "ror eax, " & $iShift + 1 & @CRLF & "shr edx, " & $iShift + 1 & @CRLF
	$sASM &= "add edx, eax"
	GUICtrlSetData($aET_ASM[2][0], $sASM)


	$sASM = "mov rax, [dividend]" & @CRLF & "mov rbx, rax" & @CRLF & "mov rcx, 0x" & Hex($sDiv65, 16) & @CRLF & "mul rcx" & @CRLF & "xor rax, rax" & @CRLF & "add rdx, rbx" & @CRLF & "adc rax, 0" & @CRLF
	If $iShift Then $sASM &= "ror rax, " & $iShift + 1 & @CRLF & "shr rdx, " & $iShift + 1 & @CRLF
	$sASM &= "add rdx, rax"
	GUICtrlSetData($aET_ASM[2][1], $sASM)


	$iMDiv32 = $sDiv32
	$iMDiv33 = $sDiv33
	$iMShft = $iShift


EndFunc   ;==>_CalcMagic








Func __FracAdd($sBin)
	Local $aBin = StringRegExp($sBin, "\d", 3)


	Local $iCar = 1
	For $i = UBound($aBin) - 1 To 0 Step -1
		$aBin[$i] += $iCar
		If $aBin[$i] > 1 Then
			$aBin[$i] = 0
		Else
			ExitLoop
		EndIf
	Next


	$sBin = ""
	For $i = 0 To UBound($aBin) - 1
		$sBin &= $aBin[$i]
	Next


	Return $sBin
EndFunc   ;==>__FracAdd








Func _CalcInv()
	Local $sDiv = GUICtrlRead($cIP_DivI)
	If GUICtrlRead($cCB_Frac) = 1 Then $sDiv &= "." & GUICtrlRead($cIP_DivF)
	If Number($sDiv) < 2 Then
		For $i = 0 To 2
			GUICtrlSetData($aET_ASM[$i][0], "")
			GUICtrlSetData($aET_ASM[$i][1], "")
			GUICtrlSetState($aET_ASM[$i][2], $GUI_DISABLE)
		Next
		Return
	EndIf
	GUICtrlSetState($aET_ASM[0][2], $GUI_ENABLE)
	GUICtrlSetState($aET_ASM[1][2], $GUI_ENABLE)
	GUICtrlSetState($aET_ASM[2][2], $GUI_ENABLE)


	Local $sInvB = __CalcInv($sDiv)
	GUICtrlSetData($cIP_InvB, $sInvB)


	Local $iRnd
	Local $sInvD = __InvDec($sInvB, $iRnd)
	GUICtrlSetData($cIP_InvD, StringTrimLeft($sInvD, 2))


	;If $iRnd Then
	;	GUICtrlSetData($cIP_Offset, 1)
	;Else
		GUICtrlSetData($cIP_Offset, 0)
	;EndIf


	$bCalcMagic = True


EndFunc   ;==>_CalcInv






Func _EnableFrac()
	If GUICtrlRead($cCB_Frac) = 1 Then
		GUICtrlSetState($cIP_DivF, $GUI_ENABLE)
	Else
		GUICtrlSetState($cIP_DivF, $GUI_DISABLE)
	EndIf
	$bCalcInv = True
EndFunc   ;==>_EnableFrac


















Func _Exit()
	GUIDelete($hGui)
	Exit
EndFunc   ;==>_Exit










Func _TranslateBase($sNumber, $iOldBase = 10, $iNewBase = 2)
	;by eukalyptus
	If $iOldBase < 2 Or $iOldBase > 128 Or $iNewBase < 2 Or $iNewBase > 128 Then Return SetError(1, 1, False)
	Local $iNum, $aRes, $tChr = DllStructCreate("char[65];")
	If $iOldBase <> 10 Then
		$aRes = DllCall("msvcrt.dll", "uint64:cdecl", "_strtoui64", "str", $sNumber, "ptr", 0, "int", $iOldBase)
		If @error Then Return SetError(1, 2, False)
		$iNum = $aRes[0]
	Else
		$iNum = Int($sNumber)
	EndIf
	$aRes = DllCall("msvcrt.dll", "ptr:cdecl", "_i64toa", "int64", $iNum, "ptr", DllStructGetPtr($tChr), "int", $iNewBase)
	If @error Then Return SetError(1, 3, False)
	Return DllStructGetData($tChr, 1)
EndFunc   ;==>_TranslateBase












Func __InvDec($sInv, ByRef $iRnd, $iPrec = 64)
	Local $iLen = StringLen($sInv)
	Local $tInv = DllStructCreate("char[" & $iLen & "]; byte[16];")
	Local $tDec = DllStructCreate("char[" & $iLen + $iPrec + 1 & "]; byte[16];")
	DllStructSetData($tInv, 1, $sInv)


	Local $aResult = DllCallAddress("uint", $pASM_InvDec, "struct*", $tDec, "struct*", $tInv, "uint", $iLen, "uint", $iPrec)
	$iRnd = $aResult[0] = 1
	Local $sDec = StringLeft(DllStructGetData($tDec, 1), $iPrec + 1)
	$sDec = StringRegExpReplace($sDec, "(^0|[^0])0+$", "\1", 1) ;Pst


	Return "0" & $sDec
EndFunc   ;==>__InvDec






Func __CalcInv($sDec, $iPrec = 64)


	$iPrec *= 4


	$sDec = StringRegExpReplace($sDec, "[^0-9.]", "")
	If Not StringInStr($sDec, ".") Then $sDec &= "."
	Local $sInt = StringRegExpReplace($sDec, "\.\d*", "")
	Local $sFrac = StringRegExpReplace($sDec, "\d*\.", "")


	$sInt = __BinInt($sInt)
	$sFrac = __BinFrac($sFrac)


	Local $sDvs = $sInt & $sFrac
	Local $iDot = StringLen($sInt)
	Local $iDvs = StringLen($sDvs)
	$sDvs = StringRegExpReplace($sDvs, "^0+([^0]|0$)", "\1", 1) ;Pre
	$iDot -= $iDvs - StringLen($sDvs) + 1
	$sDvs = StringRegExpReplace($sDvs, "(^0|[^0])0+$", "\1", 1) ;Pst
	If Not $sDvs Or $sDvs = "0" Then Return SetError(1, 1, False)


	Local $sInv = "0"
	Switch $sDvs
		Case "1"
			$sInv = "1"
			$iDot -= 1


		Case Else
			$sDvs = "0" & $sDvs
			Local $iLen = StringLen($sDvs)
			Local $tDvs = DllStructCreate("char[" & $iLen & "]; byte[16];")
			Local $tDvd = DllStructCreate("char[" & $iLen & "]; byte[16];")
			Local $tInv = DllStructCreate("char[" & $iPrec & "]; byte[16];")
			DllStructSetData($tDvs, 1, $sDvs)


			DllCallAddress("none", $pASM_Inv, "struct*", $tInv, "struct*", $tDvd, "struct*", $tDvs, "uint", $iLen, "uint", $iPrec)


			$sInv = DllStructGetData($tInv, 1)


	EndSwitch


	Return StringFormat("%0" & $iDot & "s", "") & $sInv
EndFunc   ;==>__CalcInv




Func __BinInt($sInt)
	Local $iLen = StringLen($sInt)
	If $iLen < 1 Then Return "0"
	Local $tInt = DllStructCreate("char[" & $iLen & "]; byte[16];")
	Local $tBin = DllStructCreate("char[64]; byte[16];")
	DllStructSetData($tInt, 1, $sInt)


	Local $aResult = DllCallAddress("uint", $pASM_BinInt, "struct*", $tInt, "uint", $iLen, "struct*", $tBin)


	Return DllStructGetData($tBin, 1)
EndFunc   ;==>__BinInt




Func __BinFrac($sFrac, $iPrec = 256)
	Local $iLen = StringLen($sFrac)
	If $iLen < 1 Then Return "0"
	Local $tFrac = DllStructCreate("char[" & $iLen & "]; byte[16];")
	Local $tBin = DllStructCreate("char[" & $iPrec & "]; byte[16];")
	DllStructSetData($tFrac, 1, $sFrac)


	Local $aResult = DllCallAddress("uint", $pASM_BinFrac, "struct*", $tFrac, "uint", $iLen, "struct*", $tBin, "uint", $iPrec)


	Return DllStructGetData($tBin, 1)
EndFunc   ;==>__BinFrac




















Func _StructCreateBCA16($bBinaryCode)
	Local $iSize = BinaryLen($bBinaryCode)
	Local $aResult = DllCall("kernel32.dll", "ptr", "VirtualAlloc", "ptr", 0, "ulong_ptr", $iSize + 16, "dword", 0x00001000, "dword", 0x00000040)
	If @error Or Not $aResult[0] Then Return SetError(1, 0, False)
	Local $pStruct = Number($aResult[0])
	$pStruct = $pStruct + 16 - Mod($pStruct, 16)
	Local $tStruct = DllStructCreate("byte[" & $iSize & "];", $pStruct)
	DllStructSetData($tStruct, 1, $bBinaryCode)
	Return $pStruct
EndFunc   ;==>_StructCreateBCA16

Alles anzeigen

**eukalyptus**

Teil3

**eukalyptus**

Teil4

**Andy**

Hi,
wie hier bereits beschrieben, existiert für die Berechnung einer Folge von Werten und dessen Sinus/Cosinus ein mathematischer "Trick". Dabei wird lediglich für den Startwert der Sinus/Cosinus ermittelt und dann benötigt man zur Ermittlung der folgenden Werte lediglich Additionen und Multiplikationen.
Als "Goodie" ist die DEG-Berechnung statt RAD bereits enthalten!

Ggf. gibt es ja mittlerweile das Pendant zu PMADDWD (Multiply and Add Packed Integers) für Floats/Double bei den SSE-Befehlen^^. Damit wäre imho das geschwindigkeitsmäßige Optimum erreicht ohne jegliche Interpolation...
Du kannst ja mal schauen, inwieweit du das integrieren kannst/willst!

AutoIt

$pi = ATan(1) * 4
$start = $pi / 180           ;erster Wert (hier gleichzeitig das Intervall)




$a = Cos($start)             ;berechnen
$b = Sin($start)             ;berechnen
$sin = 0                     ;startwerte vorgegeben
$cos = 1                     ;startwerte vorgegeben


For $y = $start To $pi Step $start ;das Intervall ist hier der startwert -> bei Bedarf anpassen)


    $ns = $b * $cos + $a * $sin;MUL + ADD
    $nc = $a * $cos - $b * $sin;MUL + ADD
    $cos = $nc               ;das Ergebnis
    $sin = $ns               ;;das Ergebnis  ;ein evtl. benötigter Tangens reduziert sich auf ein simples DIV
    ConsoleWrite('y=' & $y / $start & @TAB & "    " & ' $sin = ' & $sin & @TAB & "    Fehler: " & $sin - Sin($y) & @CRLF) ;### Debug Console


Next

Alles anzeigen

**minx**

Ein paar Notizen zu verschiedenen Geschwindigkeitsoptimierungen die ich mal aus einem älteren Buch abgeschrieben hatte.

1. LEA

LEA kann in vielen Fällen einfache Berechnungen ersetzten bzw. zusammenfassen. Z.b. kann man folgenden Code

Code

mov eax, ecx
shl eax, 3
add eax, ebx
sub eax, 1000

zu

Code

lea eax, [ebx+8*ecx-1000]

optimieren.

2. INC / DEC

INC und DEC verbrauchen auf so ziemlich allen modernen CPUs eine zusätzliche Mikroinstruktion. Daher lieber ADD / SUB benutzen, damit bleiben nämlich auch alle Flags intakt.

Besonders interessant wirds hier, wenn ein Loop über eine Struct iteriert. Sofern der Step immer konstant ist, sollte man immer zu ADD greifen um zum Ende der Daten zu springen, statt INC bzw. MUL.

3. XCHG

Sollte man generell niemals verwenden. Denn XCHG impliziert ein vorhergehendes LOCK damit alle Threads synchronisiert werden. Das sorgt für kleinere, unnötige Verzögerungen. Wenn es um Dateigröße statt Speed geht, spart man mit XCHG hier und da auch ein ein Byte.

4. Bit Tests

Diese sind bis heute auf AMD CPUs nicht optimal umgesetzt und verursachen immer 2 zusätzliche Mikroinstruktionen (im Folgenden µOps). Hier lieber selbst mit TEST und bitwise Logik Hand anlegen. Wenn nur wenig getestet wird ists aber halb so schlimm.

5. L/SAHF

Wieder langsam auf AMD CPUs. Dort statt LAHF einfach mit SETcc arbeiten. Auf jeder CPU kann man SAHF durch TEST ersetzen, wenn nur auf ein Bit in AH geprüft werden soll.

Nützlich ist auch FCOMI, dann dies hier:

Code

FCOM
FNSTSW AX
SAHF

kann einfach durch ein FCOMI ersetzt werden. FCOMI kann man an äußerst vielen anderen Stellen benutzen um FPU Berechnungen zu optimieren, aber das erklären andere Tutorials besser.

6. Integer Multiplikation

MUL (und IMUL) sollte generell komplett vermieden werden und ist in jedem Fall durch schnelleren Code ersetzbar, so lange ein Faktor konstant ist. So ist

Code

IMUL EAX, 5

gleich

Code

LEA EAX, [EAX+4*EAX]

7. Division

Ah ja, mein Lieblingsthema.

7.1 Integer Division mit 2^N

Das ist ein Spezialfall, der sich gut optimieren lässt. Hier kann man sogar gleichzeitig für Größe optimieren wenn man sich auf unsigned beschränkt:

Code

shr EAX, N

Geht auch für signed, ist eben bloß ein bissl länger:

Code

; Divide signed ints by 2^N
cdq
and EDX, (1 shl N) - 1
add EAX, EDX
sar EAX, N

7.2 Integer Division mit beliebigen Konstanten

Viele Wege führen nach Rom. Ich beschreibe hier mal den Mathisen Algorithmus. Dieser wird verwendet um ASM Code zu konstruieren, der nicht nur für die jeweilige Konstante optimiert ist, sondern auch auf die Breite (ie. wie viel Bit) der Zahl.

Unsere Konstante ist d. Daraus erechnen wir mal folgende Zahlen:

b = (signifikante bits in d) - 1
r = w + b
f = 2^r / d

Dann ergeben sich drei Fälle, die letztendlich den Code vorgeben:

Fall A, f ist ein Integer (frac(f) = 0)

Ergebnis = x SHR b

Fall B, frac(f) < 0.5

f abrunden
Ergebnis = ((x + 1) * f) SHR r

Fall C, frac(f) > 0.5

f aufrunden
Ergebnis = (x * f) SHR r

Eigentlich ganz einfach. Aufgepasst: Das ist nur der erste Schritt. Nachdem wir hier fertig sind, müssen wir trotzdem noch alle oben genannten Optimierungen anwenden (z.B. das MUL loswerden).

Exerzieren wir das mal durch. Wir wollen (EAX) durch 5 teilen:

5 = 101b
w = 32 (ie. die Breite in bits)
b = 1 (da 5 drei signifikante bits hat - 1)
r = 32 + 2 = 34
f = 2^34 / 5

f ist also 3435973836.8. Da frac(f) = 0.8 > 0.5 müssen wir Fall C anwenden, also runden wir f auf 0CCCCCCCDh auf.

Also folgender simpler Code:

Code

; x liegt als Wert in EAX
mov EDX, 0CCCCCCCDh           ;
mul EDX                       ; x * f
shr EDX, 2

Warum nur SHR EDX, 2? Weil das Ergebnis in EDX schon um 32bits geshifted vorliegt. Somit brauchen wir nur noch um b zu shiften. Das Ergebnis liegt jetzt in EDX.

Für den Fall B ergibt sich folgender Code:

Code

add EAX, 1
mov EDX, f
mul EDX
shr EDX, b

Jetzt steht da aber noch ein hässliches MUL, das werden wir aber gleich los. Zunächst ein paar Hinweise.

Optimierung I

Obiger Code schließt leider x = 0FFFFFFFFh aus, da durch das ADD ein Overflow ensteht. Das lässt sich wie folgt umgehen (sollte man NUR einbauen, wenn man einen Overflow erwartet!):

Code

mov EDX, f
	add EAX, 1
	jc overflow
	mul EDX
overflow:
	shr EDX, b

Optimierung II

Es ergibt Sinn r kleiner zu wählen. Wenn nämlich r = w = 32, dann kann der letzte shift einfach weg

Optimierung III

Man kann auch mit IMUL was erreichen. Das hat den Vorteil, dass es vieles vom obigen Code einfach in einem Schritt erledigt, aber mit niedrigerer Präzision. Wenn also r = 16 + b, dann geht es ganz simpel:

Code

; Dividieren durch 5
imul eax, 0CCCDh
shr EAX, 18

Optimierung IV

Vielleicht ist es schon aufgefallen, aber wenn man zwischen B und C wählen kann, sollte man immer so rechnen, dass man C verwendet. Warum? Weil man sich ein ADD spart. Dafür muss wieder r intelligent gewählt werden. So. Und nun optimieren wir noch das MUL weg und shiften stattdessen.

Dazu ein Beispiel. Wir wollen 1.) durch 10 teilen mit 2.) niedriger Präzision für mehr Speed und 3.) das Ergebnis in EAX statt EDX:

Code

; f = 2^17 / 10 = 3333h
; -> Fall B, also (x + 1) * 3333h
; Ergebnis wird hier zurück in EAX geschrieben
; Multiplikation wurde hier schon wegoptimiert


lea EBX, [EAX+2*EAX+3]
lea ECX, [EAX+2*EAX+3]
shl EBX, 4
mov EAX, ECX
shl ECX, 8
add EAX, EBX
shl EBX, 8
add EAX, ECX
add EAX, EBX
shr EAX, 17

Alles anzeigen

Optimierung V

Das waren die Grundlagen, jetzt wollen wir mal mehrere Zahlen auf einmal teilen. Als Beispiel werden hier 8 unsigned 16bit Integer durch 100 geteilt:

Code

.data
align 16
HDIV dw 8 dup (0CCCDh)


.code
pmulhuw xmm0, HDIV
psrlw xmm0, 3

Optimierung VI

Logischerweise kann man damit jede Division beschleunigen, die wiederholt mit einer Konstante ausgeführt wird. In Loops z.B.. Dann einfach einmal obige Zwischenergebnisse ausrechnen und den Code anpassen. Wie man das im Algorithmen Design umsetzt ist hier erklärt.

Optimierung VII

Fast geschafft. Nur noch ein kurzer Exkurs mit SSE. Wenn man obige Methode auf SSE anwendet hat man normalerweise nur 12bit zur Verfügung. Intel hat dazu aber eine Empfehlung ausgesprochen (siehe AP-803), wie man mit dem Newton-Raphson Verfahren nochmal was rausholt um auf 23bits zu kommen. Die Berechnung dazu sieht so aus:

x0 = rcpss(d)
x1 = x0 * (2 - d * x0) = 2 * x0 - d * x0 * x0

xN ist hier die N-beste Annäherung an das Reziproke von d.

Umgesetzt wirds so:

Code

; Ergebnisse werden in xmm0 stehen
movaps xmm1, [divisors]
rcpps xmm0, xmm1
mulps xmm1, xmm0
mulps xmm1, xmm0
addps xmm0, xmm0
subps xmm0, xmm1
mulps xmm0, [dividends]

Das sind 4 23bit Divisionen in 18 Takten.

8. Exponenten in Kommazahlen

BTW. FSCALE immer vermeiden, einfach direkt in die Exponentenbits schreiben.

Für alle 2^N (N ist signed) gilt folgendes:

a) |N| < 2^7 - 1 (single precision)

Code

mov EAX, [N]
shl EAX, 23
add EAX, 3f800000h
mov dowrd ptr [TEMP], eax
fld dword ptr [TEMP]

b) |N| < 2^10 - 1 (double precision)

Code

mov EAX, [N]
shl EAX, 20
add EAX, 3ff00000h
mov dword ptr [TEMP], 0
mod dword ptr [TEMP+4], EAX
fld qword ptr [TEMP]

Und schon können wir eine allgemeine, schnelle und (so ziemlich) bug-freie Exponentialfunktion mit double-Genauigkeit ableiten:

Code

_exp PROC NEAR
PUBLIC _exp
		fldl2e
		fld qword ptr [esp+4]             ; x
		fmul                              ; z = x*log2(e)
		fist dword ptr [esp+4]            ; round(z)
		sub esp, 12
		mov dword ptr [esp], 0
		mov dword ptr [esp+4], 80000000h
		fisub dword ptr [esp+16]          ; z - round(z)
		mov eax, [esp+16]
		add eax,3fffh
		mov [esp+8],eax
		jle short UNDERFLOW
		cmp eax,8000h
		jge short OVERFLOW
		f2xm1
		fld1
		fadd                              ; 2^(z-round(z))
		fld tbyte ptr [esp]               ; 2^(round(z))
		add esp,12
		fmul                              ; 2^z = e^x
		ret
UNDERFLOW:
		fstp st
		fldz                              ; return 0
		add esp,12
		ret
OVERFLOW:
		push 07f800000h                   ; +infinity
		fstp st
		fld dword ptr [esp]               ; return infinity
		add esp,16
		ret
_exp ENDP

Alles anzeigen

**eukalyptus**

Zitat von Andy
Hi,
wie hier bereits beschrieben, existiert für die Berechnung einer Folge von Werten und dessen Sinus/Cosinus ein mathematischer "Trick". Dabei wird lediglich für den Startwert der Sinus/Cosinus ermittelt und dann benötigt man zur Ermittlung der folgenden Werte lediglich Additionen und Multiplikationen.
Als "Goodie" ist die DEG-Berechnung statt RAD bereits enthalten!

Ggf. gibt es ja mittlerweile das Pendant zu PMADDWD (Multiply and Add Packed Integers) für Floats/Double bei den SSE-Befehlen^^. Damit wäre imho das geschwindigkeitsmäßige Optimum erreicht ohne jegliche Interpolation...
Du kannst ja mal schauen, inwieweit du das integrieren kannst/willst!
AutoIt
$pi = ATan(1) * 4
$start = $pi / 180           ;erster Wert (hier gleichzeitig das Intervall)




$a = Cos($start)             ;berechnen
$b = Sin($start)             ;berechnen
$sin = 0                     ;startwerte vorgegeben
$cos = 1                     ;startwerte vorgegeben


For $y = $start To $pi Step $start ;das Intervall ist hier der startwert -> bei Bedarf anpassen)


    $ns = $b * $cos + $a * $sin;MUL + ADD
    $nc = $a * $cos - $b * $sin;MUL + ADD
    $cos = $nc               ;das Ergebnis
    $sin = $ns               ;;das Ergebnis  ;ein evtl. benötigter Tangens reduziert sich auf ein simples DIV
    ConsoleWrite('y=' & $y / $start & @TAB & "    " & ' $sin = ' & $sin & @TAB & "    Fehler: " & $sin - Sin($y) & @CRLF) ;### Debug Console


Next
Alles anzeigen

Sehr interessant!
Wenn ich das aber richtig verstehe, dann sind mit dieser Methode keine Sweeps möglich bzw. nur umständlich zu erreichen...
Also sowas wie das hier:

AutoIt

#include <GDIPlus.au3>
#include <GUIConstantsEx.au3>
#include <WindowsConstants.au3>


Opt("MustDeclareVars", 1)
Opt("GUIOnEventMode", 1)


Global $iWidth = 1200
Global $iHeight = 400


_GDIPlus_Startup()
Global $hGui = GUICreate("Sweep", $iWidth, $iHeight + 40)
GUISetOnEvent($GUI_EVENT_CLOSE, "_Exit")
Global $hGraphics = _GDIPlus_GraphicsCreateFromHWND($hGui)
Global $hBmp_Buffer = _GDIPlus_BitmapCreateFromGraphics($iWidth, $iHeight, $hGraphics)
Global $hGfx_Buffer = _GDIPlus_ImageGetGraphicsContext($hBmp_Buffer)
_GDIPlus_GraphicsSetSmoothingMode($hGfx_Buffer, 2)


Global $cIP_Start = GUICtrlCreateInput("1", 10, $iHeight + 10, 60, 20, BitOR(0x0800, 0x0002))
GUICtrlCreateUpdown(-1)
GUICtrlSetLimit(-1, 100, 1)
GUICtrlSetOnEvent(-1, "_PlotSin")


Global $cIP_End = GUICtrlCreateInput("10", $iWidth - 80, $iHeight + 10, 60, 20, BitOR(0x0800, 0x0002))
GUICtrlCreateUpdown(-1)
GUICtrlSetLimit(-1, 100, 1)
GUICtrlSetOnEvent(-1, "_PlotSin")


GUIRegisterMsg($WM_PAINT, "WM_PAINT")
GUISetState()


_PlotSin()


While Sleep(10)
WEnd








Func _PlotSin()
	Local $iFreq1 = GUICtrlRead($cIP_Start)
	Local $iFreq2 = GUICtrlRead($cIP_End)


	Local $tCurve = DllStructCreate("float[" & $iWidth * 2 & "];")


	Local $fPhase = 0, $fPhaseInc, $fY, $fFreq
	Local $fCY = $iHeight * 0.5
	Local $fAmp = $iHeight * 0.4
	Local $c2PI = ATan(1) * 8


	For $i = 0 To $iWidth - 1
		$fFreq = ($iFreq2 - $iFreq1) * $i / $iWidth


		$fY = Sin($fPhase) * $fAmp + $fCY
		DllStructSetData($tCurve, 1, $i, $i * 2 + 1)
		DllStructSetData($tCurve, 1, $fY, $i * 2 + 2)


		$fPhaseInc = $c2PI / $iWidth * ($iFreq1 + $fFreq)
		$fPhase += $fPhaseInc
	Next




	_GDIPlus_GraphicsClear($hGfx_Buffer, 0xFF000000)


	Local $hPen = _GDIPlus_PenCreate(0xFF00FF00, 2)
	DllCall($__g_hGDIPDll, "int", "GdipDrawCurve2", "handle", $hGfx_Buffer, "handle", $hPen, "struct*", $tCurve, "int", $iWidth, "float", 0.5)
	_GDIPlus_PenDispose($hPen)


	_GDIPlus_GraphicsDrawImage($hGraphics, $hBmp_Buffer, 0, 0)
EndFunc   ;==>_PlotSin












Func WM_PAINT($hWnd, $iMsg, $wParam, $lParam)
	_GDIPlus_GraphicsDrawImage($hGraphics, $hBmp_Buffer, 0, 0)
	Return $GUI_RUNDEFMSG
EndFunc   ;==>WM_PAINT


Func _Exit()
	_GDIPlus_GraphicsDispose($hGfx_Buffer)
	_GDIPlus_BitmapDispose($hBmp_Buffer)
	_GDIPlus_GraphicsDispose($hGraphics)
	_GDIPlus_Shutdown()
	GUIDelete($hGui)
	Exit
EndFunc   ;==>_Exit

Alles anzeigen

**Andy**

Zitat von eukalyptus

Wenn ich das aber richtig verstehe, dann sind mit dieser Methode keine Sweeps möglich bzw. nur umständlich zu erreichen...

Ja, da hast du Recht! Denn der neue "Startpunkt" für die "gleichmäßige Folge" ist ja immer wieder ein neuer....
Der Trick funktioniert also nur bei gleichmäßigen Folgen
Aber besser als nix, damit wären gefühlte 90% abgedeckt . In Assembler(Compilersprache) heisst das Faktor 10 für reines Float/Double, bei Festkommazahlen rechnet man in "Integern" da ist dann wesentlich mehr drin, je nach Anwendung!