Quicksort mit 32-Bit Integerwerten

**Oscar**

In GetUniqueColors gab es die Aufgabenstellung alle Farben in einem Bild zu zählen.

Hier soll es jetzt um das sortieren von 32-Bit-Integerwerten gehen. Wenn man ein AutoIt-Array mit 1Mio Elementen hat und dieses mit _ArraySort sortieren will, dann dauert das ziemlich lange (ca. 26 Sekunden auf meinem Rechner und mit Zufallsdaten).

Das Ganze dauert in Assembler ca. 56 Millisekunden. Zumindest das reine sortieren. Um in Assembler mit dem AutoIt-Array arbeiten zu können, müssen wir es in eine Struct kopieren und nach dem sortieren in Assembler müssen wir die Daten aus der Struct wieder in das Array zurück kopieren.

Dieses umkopieren dauert jedes Mal ca. 1.2 Sekunden. Somit ergibt sich für das sortieren mit dem Assemblerprogramm eine Gesamtlaufzeit von ca. 2.5 Sekunden. Das ist aber immer noch ein mächtiger Geschwindigkeitsgewinn (nur ein Zehntel der Zeit).

Dieses Assemblerprogramm möchte ich euch hier vorstellen.

Dazu habe ich die Quicksort-Funktion aus dem obigen Thread noch verbessert:

- Beim Start wird überprüft, ob die Daten bereits sortiert vorliegen. Das kostet zwar ein paar Millisekunden für den Test, aber es ist schneller als die sortierten Daten erneut durch die Funktion zu schicken.

- Quicksort wird nicht ausschließlich verwendet. Bei weniger als 45 Elementen pro Partition werden die verbleibenden Elemente mit InsertionSort sortiert. Diese Kombination ist schneller, als ein reines Qiucksort.

- Das Pivotelement ist jetzt nicht mehr das erste (linke) Element einer Partition, sondern das Mittlere. Das bringt einen enormem Geschwindigkeitsgewinn bei teilsortierten Listen.

Ausgabe bei mir:

Code

ASM-Code-Size:    221 Bytes
Test-Array:    1000000 Elemente
ArrayCreate:    1237.211 ms

Array2Struct:    1116.148 ms
ASM_Sort:    55.360 ms
Struct2Array:    1190.879 ms

_ArraySort:    25923.010 ms

Wer selbst am ASM-Code rumbasteln will, benötigt "Assembleit2_64" von Andy und muss die Zeilen 4 und 166 aktivieren und die Zeilen 167 und 168 auskommentieren.

Ansonsten habe ich alles ausgiebig kommentiert, sodass der Ablauf verständlich wird.

AutoIt

#AutoIt3Wrapper_UseX64=n                          ; 32Bit-Modus
#include <Memory.au3>
#include <Array.au3>
;~ #include "assembleit2_64.au3"

#Region ASM-Code
#cs ASM_Sort
    Use32                                            ; 32Bit Modus!
    mov esi,dword[esp+4]                             ; esi = Pointer auf die Datenstruct
    mov edx,dword[esp+8]                             ; edx = right = Anzahl der Daten
    dec edx                                          ; um eins verringern, weil die Datenstruct bei 0 beginnt

    xor ecx,ecx                                      ; ecx (auf 0 setzen)
    @check1:                                         ; Schleife, zum testen, ob die Daten bereits sortiert sind (aufwaerts)
        mov eax,dword[esi+ecx*4]                     ; eax = Data[ecx]
        inc ecx                                      ; ecx++
        cmp ecx,edx                                  ; ecx > edx?
        ja @SortReturn                               ; Ja, dann alle Daten getestet, also bereits sortiert (Funktion beenden)
        cmp eax,dword[esi+ecx*4]
        jbe @check1                                  ; Wenn Data[ecx] <= Data[ecx+1], dann weiter mit @check1
    xor ecx,ecx                                      ; ecx (auf 0 setzen)
    @check2:                                         ; Schleife, zum testen, ob die Daten bereits sortiert sind (abwaerts)
        mov eax,dword[esi+ecx*4]                     ; eax = Data[ecx]
        inc ecx                                      ; ecx++
        cmp ecx,edx                                  ; ecx > edx?
        ja @SortReturn                               ; Ja, dann alle Daten getestet, also bereits sortiert (Funktion beenden)
        cmp eax,dword[esi+ecx*4]
        jae @check2                                  ; Wenn Data[ecx] >= Data[ecx+1], dann weiter mit @check2

    xor ecx,ecx                                      ; ecx = left (auf 0 setzen)
    push edx ecx                                     ; right und left auf den Stack (fuer Quicksort)
    call quicksort                                   ; Quicksort aufrufen (die Datenstruct sortieren)

    @SortReturn:
    ret                                              ; Daten sortiert (Funktion beenden)

    quicksort:                                       ; die Quick-/Insertionsort-Funktion
        mov ecx,dword[esp+4]                         ; ecx = left
        mov edx,dword[esp+8]                         ; edx = right
        cmp ecx,edx                                  ; left und right vergleichen
        jae @end                                     ; wenn left >= right, dann Funktion beenden
            mov eax,edx
            sub eax,ecx                              ; right - left
            cmp eax,45                               ; mehr als 45 Elemente?
            jg @quick                                ; wenn ja, dann Quicksort
                mov edi,ecx                          ; Nein, dann Insertionsort
                inc edi                              ; edi = $i = left + 1
                @fori:
                    mov ebx,dword[esi+edi*4]         ; ebx = Data[Insert]
                    mov eax,edi                      ; eax = $j = Insertpos
                    @forj:                           ; Einfuegeschleife
                        cmp eax,ecx                  ; Anfang erreicht?
                        jbe @break                   ; Ja, dann @break
                        cmp dword[esi-4+eax*4],ebx   ; Data[j-1] < Data[Insert]
                        jbe @break                   ; Ja, dann @break
                        movd xmm0,dword[esi-4+eax*4] ; Data[j-1] holen
                        movd dword[esi+eax*4],xmm0   ; als Data[j] speichern
                        dec eax                      ; j--
                        jmp @forj                    ; forj fortsetzen
                    @break:
                        mov dword[esi+eax*4],ebx     ; Data[Insert] nach Data[j] speichern
                        inc edi                      ; i++
                        cmp edi,edx                  ; i > right
                        jbe @fori                    ; Nein, dann @fori
                ret 8                                ; Insertionsort beendet, Funktion verlassen
            @quick:                                  ; hier beginnt der Quicksort-Bereich
            push edx ecx                             ; edx und ecx auf den Stack (fuer Partition)
            call partition                           ; Partition aufrufen (ebx = split)
            pop ecx edx                              ; ecx und edx wiederherstellen
            push ebx edx                             ; Register sichern
            push ebx ecx                             ; ebx und ecx auf den Stack (right und left fuer Quicksort)
            call quicksort                           ; Quicksort aufrufen (rekursiv)
            pop edx ebx                              ; Register wiederherstellen
            inc ebx                                  ; ebx++
            push edx ebx                             ; edx und ebx auf den Stack (right und left fuer Quicksort)
            call quicksort                           ; Quicksort aufrufen (rekursiv)
        @end:
        ret 8                                        ; Quicksort-Funktion beendet (2 DWORDs = 8 Byte vom Stack loeschen)

    partition:                                       ; Funktion zum partitionieren der Daten
        mov ecx,dword[esp+4]                         ; ecx = left
        mov edx,dword[esp+8]                         ; edx = right
        mov eax,edx                                  ; eax = edx (right)
        sub eax,ecx                                  ; eax = eax - ecx (right minus left)
        shr eax,1                                    ; eax shift right (geteilt durch 2)
        add eax,ecx                                  ; eax += ecx (= middle)
        movd xmm0,dword[esi+ecx*4]
        movd xmm1,dword[esi+eax*4]                   ; swap Data[left] <-> Data[middle]
        movd dword[esi+eax*4],xmm0
        movd dword[esi+ecx*4],xmm1
        movd edi,xmm1                                ; edi = Pivotwert = Data[left]
        mov eax,ecx
        dec eax                                      ; eax = left - 1
        mov ebx,edx
        inc ebx                                      ; ebx = right + 1
        @loop:                                       ; Hauptschleife
            @left:                                   ; Schleife fuer die linke Seite
                inc eax                              ; left++
                cmp dword[esi+eax*4],edi             ; Vergleich Data[left] mit Pivotwert
                jb @left                             ; wenn kleiner, dann Schleife @left
            @right:                                  ; Schleife fuer die rechte Seite
                dec ebx                              ; right--
                cmp dword[esi+ebx*4],edi             ; Vergleich Data[right] mit Pivotwert
                ja @right                            ; wenn groesser, dann Schleife @right
            cmp eax,ebx                              ; Vergleich left und right
            jae @return                              ; wenn groesser/gleich, dann @return
            mov ecx,dword[esi+eax*4]                 ; Data[left] gegen Data[right] austauschen
            mov edx,dword[esi+ebx*4]
            mov dword[esi+eax*4],edx
            mov dword[esi+ebx*4],ecx
            jmp @loop                                ; und mit @loop fortfahren
        @return:
        ret                                          ; right zurueckgeben (ebx)
#ce
#EndRegion ASM-Code

#region AssembleIt ; wenn diese 3 Zeilen aktiv sind, dann wird der obige ASM-Code in Binaercode umgewandelt
;~ $binarycode = _AssembleIt2('retbinary', 'ASM_Sort') ; gibt nur den assemblierten code zurück
;~ ConsoleWrite('$binarycode = "' & $binarycode & '"' & @CRLF)
;~ Exit
#EndRegion AssembleIt

#Region ASM-Binaercode ; $__g_bASMCode entspricht dem obigen ASM-Code im Binaerformat
Global Const $__g_bASMCode = '0x8B7424048B5424084A31C98B048E4139D1771D3B048E76F331C98B048E4139D1770E3B048E73F331C95251E801000000C38B4C24048B54240839D1735089D029C883F82D7F2B89CF478B1CBE89F839C87614395C86FC760E660F6E4486FC660F7E048648EBE8891C864739D776DBC208005251E818000000595A53525351E8AEFFFFFF5A5B435253E8A4FFFFFFC208008B4C24048B54240889D029C8D1E801C8660F6E048E660F6E0C86660F7E0486660F7E0C8E660F7ECF89C84889D34340393C8672FA4B393C9E77FA39D8730E8B0C868B149E891486890C9EEBE2C3'
Global Const $__g_iMemSize = StringLen($__g_bASMCode) / 2 - 1 ; Codelaenge ermitteln
Global Const $__g_pMem = _MemVirtualAlloc(0, $__g_iMemSize, $MEM_COMMIT, $PAGE_EXECUTE_READWRITE) ; Virtuellen Speicher reservieren
If $__g_pMem = 0 Then Exit MsgBox(16, 'Error!', "Can't allocate virtual memory!")
Global $__g_tASMCode = DllStructCreate('byte[' & $__g_iMemSize & ']', $__g_pMem) ; Structur fuer den Binaercode erstellen
DllStructSetData($__g_tASMCode, 1, $__g_bASMCode) ; den Binaercode in die Structur schreiben
Global $__g_pASMCode = DllStructGetPtr($__g_tASMCode) ; den Pointer der Structur holen
ConsoleWrite(StringFormat('ASM-Code-Size:\t%i Bytes\n', $__g_iMemSize))
#EndRegion ASM-Binaercode

#Region Test-Vorbereitungen
Global $iCount = 1000000, $iTimer, $ret ; $iCount = Anzahl der Array-Elemente
Global $aRanData[$iCount], $aData
ConsoleWrite(StringFormat('Test-Array:\t%i Elemente\n', $iCount))
#EndRegion Test-Vorbereitungen

#Region Zufalls-Array erstellen
$iTimer = TimerInit()
For $i = 0 To $iCount - 1
    $aRanData[$i] = Random(0, 2^31-1, 1)
;~     $aRanData[$i] = $i ; aufwaerts sortiert
;~     $aRanData[$i] = $iCount - $i ; abwaerts sortiert
Next
;~ $tmp = $aRanData[$iCount - 1] ; swap A[last] <-> A[0]
;~ $aRanData[$iCount - 1] = $aRanData[0]
;~ $aRanData[0] = $tmp
ConsoleWrite(StringFormat('ArrayCreate:\t%.3f ms\n\n', Round(TimerDiff($iTimer), 3)))
#EndRegion Zufalls-Array erstellen

#Region Array2Struct
$aData = $aRanData ; damit die Ausgangsbedingungen gleich sind
$iTimer = TimerInit()
Global $tData = DllStructCreate('dword[' & $iCount & ']')
Global $pData = DllStructGetPtr($tData)
For $i = 0 To $iCount - 1
    DllStructSetData($tData, 1, $aData[$i], $i + 1)
Next
ConsoleWrite(StringFormat('Array2Struct:\t%.3f ms\n', Round(TimerDiff($iTimer), 3)))
#EndRegion Array2Struct

#Region ASM-Code aufrufen
$iTimer = TimerInit()
;~ $ret = _AssembleIt2('dword', 'ASM_Sort', 'ptr', $pData, 'dword', $iCount)
$ret = DllCallAddress('uint:cdecl', $__g_pASMCode, 'ptr', $pData, 'dword', $iCount)
$ret = $ret[0]
ConsoleWrite(StringFormat('ASM_Sort:\t%.3f ms\n', Round(TimerDiff($iTimer), 3)))
#EndRegion ASM-Code aufrufen

#Region Struct2Array
$iTimer = TimerInit()
For $i = 0 To $iCount - 1
    $aData[$i] = DllStructGetData($tData, 1, $i + 1)
Next
ConsoleWrite(StringFormat('Struct2Array:\t%.3f ms\n\n', Round(TimerDiff($iTimer), 3)))
#EndRegion Struct2Array

#Region AutoIt ArraySort
$aData = $aRanData ; damit die Ausgangsbedingungen gleich sind
$iTimer = TimerInit()
_ArraySort($aData, 0, 0, 0, 0, 1) ; mit Dual-Pivot aufrufen (ist hier schneller)
ConsoleWrite(StringFormat('_ArraySort:\t%.3f ms\n', Round(TimerDiff($iTimer), 3)))
#EndRegion AutoIt ArraySort

;~ _ArrayDisplay($aData)

_MemVirtualFree($__g_pMem, $__g_iMemSize, $MEM_DECOMMIT)

Alles anzeigen

**Musashi**

Hallo Oscar !

Vielen Dank, insbesondere für die extra-ausführlichen Kommentare

Hier zum Vergleich mal die Laufzeitdaten meines, schon etwas in die Jahre gekommenen, PC's :

Code

ASM-Code-Size:    221 Bytes
Test-Array:    1000000 Elemente
ArrayCreate:    2065.598 ms

Array2Struct:    1797.610 ms
ASM_Sort:    65.873 ms
Struct2Array:    1999.078 ms

_ArraySort:    56228.328 ms

Gruß Musashi

**Andy**

Hallo Oscar,

in diesem Post GetUniqueColors habe ich eine Version verwendet, welche aus den Speicherinhalten (UINT/DWORDS) "lesbare" Zahlen (bestehend aus Ziffern^^) macht.

Das geht relativ schnell, dann hast du einen Text, welchen du per Stringsplit in ein AutoIt-Array umwandeln kannst.

Ich habe eben mal getestet, bei 1Mio Elementen (in diesem Fall Pixelfarben) dauert auf meinem Rechner der Stringsplit() ca. 500 ms! Die Handvoll Takte zum Erstellen des Textes aus den DWORDS fallen dabei nicht auf....

**Bitnugger**

Hallo Oscar ,

ich bin vor einiger Zeit über diesen Thread gestolpert, der sicher auch für dich interessant ist.

Accessing AutoIt Variables

Zitat von LarsJ

Accessing variables

AutoIt is a BASIC-like language. In BASIC-like languages simple variables are internally stored as variants, and arrays are internally stored as safearrays contained in variants.

Assuming that an AutoIt variable is internally stored as a variant, is it possible to get a pointer to this variant?

Assuming that an AutoIt array is internally stored as a safearray contained in a variant, then it should be possible to get a pointer to the safearray through the pointer to the variant.

Why is a pointer to a safearray interesting? Because such a pointer can be passed as a parameter to a function coded in assembler, C, C++, C# or FreeBasic. We can thus access an AutoIt array directly from a function coded in another language, without the need to convert the array to a structure (DllStructCreate) or similar. In this way it's possible to code very fast array manipulation functions in a real compiled language.

**Oscar**

Andy: Das erfordert dann aber einen zusätzlichen Speicher (bei 1Mio. DWORDs = 4 Mio. Bytes wären das zusätzliche 8 Mio. Bytes für die Chars). Aber das bestätigt eigentlich meine Vermutung, dass die vielen DLLStructGetData die eigentliche Bremse sind. Es fehlt in AutoIt, die Möglichkeit die Structur wieder schnell in ein Array umzuwandeln.

Bitnugger: Ich bin noch am durchtesten, aber verstehe ich das richtig, dass dort quasi ein Pseudo-Variant-Array erzeugt und das dann zur Übergabe nach AutoIt benutzt wird. Kann ich das dann von beiden "Seiten" aus benutzen? Und was ist, wenn man mehrere Arrays benötigt?

Wie werden da dann die Daten umkopiert?

**Bitnugger**

Zitat von Oscar

verstehe ich das richtig, dass dort quasi ein Pseudo-Variant-Array erzeugt

Es wird ein SafeArray erzeugt... wie du das von beiden Seiten handhaben kannst, ist z. B. gut in den Examples in .\Tests\Examples\2) Array variables\ zu sehen.

==>> An AutoIt array is a safearray contained in a variant.

Zitat von Oscar

Und was ist, wenn man mehrere Arrays benötigt?

Dann erzeugst du halt mehrere SaveArrays. Wenn du dir die Examples angeschaut hast, wirst du sicher durchblicken.

**Andy**

Zitat von Oscar

Andy: Das erfordert dann aber einen zusätzlichen Speicher (bei 1Mio. DWORDs = 4 Mio. Bytes wären das zusätzliche 8 Mio. Bytes für die Chars). Aber das bestätigt eigentlich meine Vermutung, dass die vielen DLLStructGetData die eigentliche Bremse sind. Es fehlt in AutoIt, die Möglichkeit die Structur wieder schnell in ein Array umzuwandeln.

Jetzt bin ich mal unverschämt und frage, wer bei der Verwendung von 1 Mio DWORDS als Integerwerte überhaupt mit AutoIt-"Arrays" arbeitet?!

Eine wie auch immer Struct ist bereits ein Array. In einer der früheren AutoIt-Versionen hatte ich mal einen Vergleich erstellt, der Struct-Funktionen und Arrayfunktionen verglichen hat, wobei beide Verfahren etwa gleich schnell waren.

Daraufhin hatte ich ein Script geschrieben, welches meine bisherigen "Array"-Funktionen-Scripte in "DllStruct..."-Scripte umschrieb. So war es auch kein Thema, mit schnellen (bei mir ASM-) Funktionen diese Daten zu bearbeiten. Das hat so lange zu meiner Zufriedenheit funktioniert, bis ich festgestellt hatte, dass "irgendjemand" aus der AutoIt-Entwicklercrew die "Struct"-Funktionen massiv in der Geschwindigkeit beschnitten hatte....Soviel zum Update-Wahn und "alles wird besser...". Sch*** drauf!

Ich hatte mich übrigens mit LarsJ´s Scripten beschäftigt. Sehr intensiv. Um dann festzustellen, dass GENAU das, was eigentlich der riesengroße Vorteil von AutoIt-Arrays ist, nämlich beliebige Datentypen in einem Array zusammenzuwürfeln, nur über massive Umwege wieder in SaveArrays umzuwandeln ist!

Nur, und da liegt der Hase im Pfeffer, wozu braucht man überhaupt Array´s?!

Damit irgendwelche Programmieranfänger mit Antwortposts zu _FileReadToArray-Anfragen zugeschmissen werden und davon ausgehen, das sei der ultimative Heilsbringer. Und sich dann wundern, warum 800MB große CSV-Files eine Viertelstunde brauchen um eingelesen zu werden...

Arrays machen da Sinn, wo man relativ problemlos und schnell "kleine" Probleme lösen will/muss. Für alles andere MUSS es auch andere Lösungsansätze geben. Und ein "Array" aus 1 Mio 32-Bit-DWORDS ist imho nichts, was man mit AutoIt-Arrays angehen sollte. Jedenfalls wenn man Wert auf Geschwindigkeit legt.

Übrigens umgeht man mit der Verwendung der SaveArrays nur die AutoIt-interne umkopiererei. Wenn man bspw. an eine Dll-Funktion den Pointer auf einen Datentyp (bspw. String) übergeben muss und dann denkt, "einfach" nur mit "ptr",$string* sei das Problem gelöst, dann fängt der Ärger schon an. AutoIt alloziert zunächst einen Speicherbereich, kopiert dann den String in diese extra dafür(!) erstellte Struct im Speicher und liefert dann den Pointer zurück.Bei kurzen Strings kein Thema, bei einem MB großen String sind 2 Sekunden weg nur für die Kopieraktion. Bei 100MB großen Strings fängt es dann an, SEHR zäh zu werden...und Strings sind nur ein Beispiel, man kann Pointer auf beliebige Datentypen verwenden...

**Oscar**

Ich habe meine Zeit jetzt erstmal in eine Multi-Thread-Version investiert.

Eigentlich macht es ja wenig Sinn, gerade die ASM-Funktion weiter zu beschleunigen, wenn Array2Struct und Struct2Array ein Vielfaches der Zeit für die ASM-Funktion ausmachen.

Aber ich wollte mal mit mehreren Threads arbeiten und die Sortierfunktion war gerade da.

Da die Threads von AutoIt aus gestartet werden, muss ich ihnen also entsprechende Aufgaben zuweisen.

Hier habe ich das jetzt so gemacht, dass zuerst ein Master-Thread gestartet wird, der die erste Partitionierung vom Quicksort übernimmt und dann die Splitposition zurück gibt (das geht recht schnell).

Mit dieser Splitposition starte ich zwei Threads, die dann parallel die beiden Partitionen sortieren (das dauert dann länger, wenn man bei Millisekunden von länger sprechen kann).

Der Erfolg hängt aber sehr stark von der Splitposition ab. Befindet sich die Splitposition so ziemlich in der Mitte (bei 1Mio Elementen also irgendwo im 500tausender Bereich), dann verkürzt sich die Sortierzeit von ca. 56ms (Singlethread) auf ca. 30ms (Multithread):

Code

Split-Element:    513727
ASM_Sort:    30.647 ms

Und je schlechter die Splitposition wird:

Code

Split-Element:    724651
ASM_Sort:    42.461 ms

umso länger dauert das sortieren:

Code

Split-Element:    25823
ASM_Sort:    55.198 ms

Ich verwende ja das mittlere Array-Element als Pivotwert. Das ist bei bereits sortierten Daten super schnell:

Code

Split-Element:    499999
ASM_Sort:    3.560 ms

Das garantiert aber nicht, dass beide Partitionen bei Zufallsdaten auch annähernd gleich groß sind. Bei Zufallsdaten ist es schwierig einen geeigneten Pivotwert zu finden.

Trotzdem war es schon ganz interessant, mal etwas Multithreading zu machen.

AutoIt

#AutoIt3Wrapper_UseX64=n                          ; 32Bit-Modus
#include <Memory.au3>
#include <Array.au3>
#include "assembleit2_64.au3"

#Region ASM-Code
#cs ASM_Sort
    Use32                                            ; 32Bit Modus!
    mov edi,dword[esp+4]                             ; edi = Pointer auf die Paramstruct
    mov esi,dword[edi]                               ; esi = Pointer auf die Datenstruct
    mov edx,dword[edi+4]                             ; edx = right = Anzahl der Daten
    dec edx                                          ; um eins verringern, weil die Datenstruct bei 0 beginnt
    mov eax,dword[edi+8]                             ; eax = ThreadID
    movd xmm2,eax                                    ; xmm2 = ThreadID sichern
    xor ecx,ecx                                      ; ecx = left (auf 0 setzen)
    push edx ecx                                     ; right und left auf den Stack (fuer Quicksort)
    call quicksort                                   ; Quicksort aufrufen (die Datenstruct sortieren)
    ret                                              ; Daten sortiert (Funktion beenden)

    quicksort:                                       ; die Quick-/Insertionsort-Funktion
        mov ecx,dword[esp+4]                         ; ecx = left
        mov edx,dword[esp+8]                         ; edx = right
        cmp ecx,edx                                  ; left und right vergleichen
        jae @end                                     ; wenn left >= right, dann Funktion beenden
            mov eax,edx
            sub eax,ecx                              ; right - left
            cmp eax,45                               ; mehr als 45 Elemente?
            jg @quick                                ; wenn ja, dann Quicksort
                mov edi,ecx                          ; Nein, dann Insertionsort
                inc edi                              ; edi = $i = left + 1
                @fori:
                    mov ebx,dword[esi+edi*4]         ; ebx = Data[Insert]
                    mov eax,edi                      ; eax = $j = Insertpos
                    @forj:                           ; Einfuegeschleife
                        cmp eax,ecx                  ; Anfang erreicht?
                        jbe @break                   ; Ja, dann @break
                        cmp dword[esi-4+eax*4],ebx   ; Data[j-1] < Data[Insert]
                        jbe @break                   ; Ja, dann @break
                        movd xmm0,dword[esi-4+eax*4] ; Data[j-1] holen
                        movd dword[esi+eax*4],xmm0   ; als Data[j] speichern
                        dec eax                      ; j--
                        jmp @forj                    ; forj fortsetzen
                    @break:
                        mov dword[esi+eax*4],ebx     ; Data[Insert] nach Data[j] speichern
                        inc edi                      ; i++
                        cmp edi,edx                  ; i > right
                        jbe @fori                    ; Nein, dann @fori
                ret 8                                ; Insertionsort beendet, Funktion verlassen
            @quick:                                  ; hier beginnt der Quicksort-Bereich
            push edx ecx                             ; edx und ecx auf den Stack (fuer Partition)
            call partition                           ; Partition aufrufen Return = ebx (Splitposition)
            pop ecx edx                              ; ecx und edx wiederherstellen
            movd eax,xmm2                            ; ThreadID wiederherstellen
            cmp eax,0                                ; ThreadID = 0 (Master-Thread)?
            jnz @f                                   ; Nein, dann ueberspringen
                mov eax,ebx                          ; Ja, dann eax = ebx (Splitposition)
                ret 8                                ; Funktion verlassen (eax = Rueckgabe an AutoIt)
            @@:
            push ebx edx                             ; Register sichern
            push ebx ecx                             ; ebx und ecx auf den Stack (right und left fuer Quicksort)
            call quicksort                           ; Quicksort aufrufen (rekursiv)
            pop edx ebx                              ; Register wiederherstellen
            inc ebx                                  ; ebx++
            push edx ebx                             ; edx und ebx auf den Stack (right und left fuer Quicksort)
            call quicksort                           ; Quicksort aufrufen (rekursiv)
        @end:
        ret 8                                        ; Quicksort-Funktion beendet (2 DWORDs = 8 Byte vom Stack loeschen)

    partition:
        mov ecx,dword[esp+4]                         ; ecx = left
        mov edx,dword[esp+8]                         ; edx = right
        mov eax,edx                                  ; eax = edx (right)
        sub eax,ecx                                  ; eax = eax - ecx (right minus left)
        shr eax,1                                    ; eax shift right (geteilt durch 2)
        add eax,ecx                                  ; eax += ecx (= middle)
        movd xmm0,dword[esi+ecx*4]
        movd xmm1,dword[esi+eax*4]                   ; swap Data[left] <-> Data[middle]
        movd dword[esi+eax*4],xmm0
        movd dword[esi+ecx*4],xmm1
        movd edi,xmm1                                ; edi = Pivotwert = Data[left]
        mov eax,ecx
        dec eax                                      ; eax = left - 1
        mov ebx,edx
        inc ebx                                      ; ebx = right + 1
        @loop:                                       ; Hauptschleife
            @left:                                   ; Schleife fuer die linke Seite
                inc eax                              ; left++
                cmp dword[esi+eax*4],edi             ; Vergleich Data[left] mit Pivotwert
                jb @left                             ; wenn kleiner, dann Schleife @left
            @right:                                  ; Schleife fuer die rechte Seite
                dec ebx                              ; right--
                cmp dword[esi+ebx*4],edi             ; Vergleich Data[right] mit Pivotwert
                ja @right                            ; wenn groesser, dann Schleife @right
            cmp eax,ebx                              ; Vergleich left und right
            jae @return                              ; wenn groesser/gleich, dann @return
            mov ecx,dword[esi+eax*4]                 ; Data[left] gegen Data[right] austauschen
            mov edx,dword[esi+ebx*4]
            mov dword[esi+eax*4],edx
            mov dword[esi+ebx*4],ecx
            jmp @loop                                ; und mit @loop fortfahren
        @return:
        ret
#ce
#EndRegion ASM-Code

#region AssembleIt ; wenn diese 3 Zeilen aktiv sind, dann wird der obige ASM-Code in Binaercode umgewandelt
;~ $binarycode = _AssembleIt2('retbinary', 'ASM_Sort') ; gibt nur den assemblierten code zurück
;~ ConsoleWrite('$binarycode = "' & $binarycode & '"' & @CRLF)
;~ Exit
#EndRegion AssembleIt

#Region ASM-Binaercode ; $__g_bASMCode entspricht dem obigen ASM-Code im Binaerformat
Global Const $__g_bASMCode = '0x8B7C24048B378B57044A8B4708660F6ED031C95251E801000000C38B4C24048B54240839D1735E89D029C883F82D7F2B89CF478B1CBE89F839C87614395C86FC760E660F6E4486FC660F7E048648EBE8891C864739D776DBC208005251E826000000595A660F7ED083F800750589D8C2080053525351E8A0FFFFFF5A5B435253E896FFFFFFC208008B4C24048B54240889D029C8D1E801C8660F6E048E660F6E0C86660F7E0486660F7E0C8E660F7ECF89C84889D34340393C8672FA4B393C9E77FA39D8730E8B0C868B149E891486890C9EEBE2C3'
Global Const $__g_iMemSize = StringLen($__g_bASMCode) / 2 - 1 ; Codelaenge ermitteln
Global Const $__g_pMem = _MemVirtualAlloc(0, $__g_iMemSize, $MEM_COMMIT, $PAGE_EXECUTE_READWRITE) ; Virtuellen Speicher reservieren
If $__g_pMem = 0 Then Exit MsgBox(16, 'Error!', "Can't allocate virtual memory!")
Global $__g_tASMCode = DllStructCreate('byte[' & $__g_iMemSize & ']', $__g_pMem) ; Structur fuer den Binaercode erstellen
DllStructSetData($__g_tASMCode, 1, $__g_bASMCode) ; den Binaercode in die Structur schreiben
Global $__g_pASMCode = DllStructGetPtr($__g_tASMCode) ; den Pointer der Structur holen
ConsoleWrite(StringFormat('ASM-Code-Size:\t%i Bytes\n', $__g_iMemSize))
#EndRegion ASM-Binaercode

#Region Test-Vorbereitungen
Global $iCount = 1000000, $iTimer, $ret ; $iCount = Anzahl der Array-Elemente
Global $aRanData[$iCount], $aData
ConsoleWrite(StringFormat('Test-Array:\t%i Elemente\n', $iCount))
#EndRegion Test-Vorbereitungen

#Region Zufalls-Array erstellen
$iTimer = TimerInit()
For $i = 0 To $iCount - 1
;~     $aRanData[$i] = Random(0, 2^31-1, 1)
;~     $aRanData[$i] = 1 + $i ; aufwaerts sortiert
    $aRanData[$i] = $iCount - $i ; abwaerts sortiert
Next
;~ $tmp = $aRanData[$iCount - 1] ; swap A[last] <-> A[0]
;~ $aRanData[$iCount - 1] = $aRanData[0]
;~ $aRanData[0] = $tmp
ConsoleWrite(StringFormat('ArrayCreate:\t%.3f ms\n\n', Round(TimerDiff($iTimer), 3)))
#EndRegion Zufalls-Array erstellen

#Region Array2Struct
$aData = $aRanData ; damit die Ausgangsbedingungen gleich sind
$iTimer = TimerInit()
Global $tData = DllStructCreate('dword[' & $iCount & ']')
Global $pData = DllStructGetPtr($tData)
For $i = 0 To $iCount - 1
    DllStructSetData($tData, 1, $aData[$i], $i + 1)
Next
ConsoleWrite(StringFormat('Array2Struct:\t%.3f ms\n', Round(TimerDiff($iTimer), 3)))
#EndRegion Array2Struct

#Region Master-Thread
; der Master-Thread nimmt die erste Partitionierung vor und die beiden Partitionen
; werden dann von den beiden Einzelthreads parallel sortiert
$iTimer = TimerInit()
Global $iThreads = 3, $atParam[$iThreads], $apParams[$iThreads], $iSplit, $ahThread[2]
For $i = 0 To $iThreads - 1
    $atParam[$i] = DllStructCreate('ptr data;dword count;dword threadid')
    $apParams[$i] = DllStructGetPtr($atParam[$i])
Next

DllStructSetData($atParam[0], 'data', $pData)
DllStructSetData($atParam[0], 'count', $iCount)
DllStructSetData($atParam[0], 'threadid', 0)
$ret = DllCallAddress('uint:cdecl', $__g_pASMCode, 'ptr', $apParams[0])
$iSplit = $ret[0]
ConsoleWrite(StringFormat('Split-Element:\t%.i\n', $iSplit))
;~ ConsoleWrite(StringFormat('Split-Thread:\t%.3f ms\n', Round(TimerDiff($iTimer), 3)))
#EndRegion Master-Thread

#Region Multi-Thread
; die Uebergabeparameter in die Parameter-Struct fuer beide Threads eintragen
DllStructSetData($atParam[1], 'data', $pData)
DllStructSetData($atParam[1], 'count', $iSplit - 1)
DllStructSetData($atParam[1], 'threadid', 1)

DllStructSetData($atParam[2], 'data', $pData + ($iSplit + 1) * 4)
DllStructSetData($atParam[2], 'count', $iCount - $iSplit - 1)
DllStructSetData($atParam[2], 'threadid', 1)

$ret = DllCall("kernel32.dll", "hwnd", "CreateThread", "ptr", 0, "dword", 0, "long", $__g_pASMCode, "ptr", $apParams[1], "long", 0, "int*", 0)
$ahThread[0] = $ret[0]

$ret = DllCall("kernel32.dll", "hwnd", "CreateThread", "ptr", 0, "dword", 0, "long", $__g_pASMCode, "ptr", $apParams[2], "long", 0, "int*", 0)
$ahThread[1] = $ret[0]

Global $iExit
Do
    $iExit = 0
    For $i = 0 To UBound($ahThread) - 1
        $ret = DllCall("Kernel32.dll", "uint64", "GetExitCodeThread", "ptr", $ahThread[$i], "dword*", 0)
        If $ret[2] <> 259 Then $iExit += 1
    Next
Until $iExit = UBound($ahThread)
ConsoleWrite(StringFormat('ASM_Sort:\t%.3f ms\n', Round(TimerDiff($iTimer), 3)))
#EndRegion Multi-Thread

#Region Struct2Array
$iTimer = TimerInit()
For $i = 0 To $iCount - 1
    $aData[$i] = DllStructGetData($tData, 1, $i + 1)
Next
ConsoleWrite(StringFormat('Struct2Array:\t%.3f ms\n\n', Round(TimerDiff($iTimer), 3)))
#EndRegion Struct2Array

;~ _ArrayDisplay($aData)

_MemVirtualFree($__g_pMem, $__g_iMemSize, $MEM_DECOMMIT)

Alles anzeigen

**Oscar**

Zitat von Andy

Jetzt bin ich mal unverschämt und frage, wer bei der Verwendung von 1 Mio DWORDS als Integerwerte überhaupt mit AutoIt-"Arrays" arbeitet?!

Eigentlich hast Du Recht!

Wenn wir schon Assembler für die Geschwindigkeit einsetzen, dann kann man auch den Rest des AutoIt-Programms danach ausrichten.

Diese SafeArray-UDF erscheint mir auch als ein recht großer "Moloch", den man dann mit rumschleppen muss.

**AspirinJunkie**

Zitat von Oscar

Der Erfolg hängt aber sehr stark von der Splitposition ab. Befindet sich die Splitposition so ziemlich in der Mitte (bei 1Mio Elementen also irgendwo im 500tausender Bereich), dann verkürzt sich die Sortierzeit von ca. 56ms (Singlethread) auf ca. 30ms (Multithread):

[...]

Ich verwende ja das mittlere Array-Element als Pivotwert.

Im Mittel kannst du das beschleunigen, - bzw. Worst-Cases vermeiden - in dem du für das Pivot-Element das erste mittlerste und letzte Element nimmst und hiervon den Median bildest.
Damit ist das Pivot-Element im Mittel viel mehr in der Mitte als wenn man ein einziges Element zufällig auswählt (was im Grunde ja deine bisherige Variante ist).

**Xorianator**

Zitat von Oscar

Bei Zufallsdaten ist es schwierig einen geeigneten Pivotwert zu finden

Quickselect wäre doch eine Möglichkeit, wenn man es mit dem approximierten Median of medians verwendet. Dann hast du zwar nicht den exakten Median (zumindest gibt es kein Garant dafür), aber bist ziemlich nah dran und die Komplexität ist Linear.

AspirinJunkies Idee gefällt mir auch, heuristisch dürftest du damit fast immer richtig liegen.

**Oscar**

Zitat von AspirinJunkie

in dem du für das Pivot-Element das erste mittlerste und letzte Element nimmst und hiervon den Median bildest.

Ja, damit sinkt die Worst-Case-Wahrscheinlichkeit und im Mittel sieht das Ergebnis schon viel besser aus.

Allerdings habe ich das "Median of three" nur für die Partitionierung des Master-Threads verwendet. Wenn ich das bei jeder Partitionierung verwende, dann frisst die Laufzeit zum ermitteln des Median den Vorteil auf.

Vor allem bei bereits sortierten Daten steigt damit die Laufzeit auf das Doppelte an.

Master benutzt "Median of three" und die Slaves den mittleren Pivotwert. Damit liegt die Laufzeit meistens bei 30...40 ms.

Zitat von Xorianator

Quickselect wäre doch eine Möglichkeit, wenn man es mit dem approximierten Median of medians verwendet.

Damit würde die Hauptaufgabe auf den Master-Thread liegen und ich würde mit den Slaves keinen Geschwindigkeitsgewinn mehr erzielen.

Die Suche nach einem brauchbaren Median muss schon sehr schnell gehen (Laufzeitmäßig).

Ich werde mal noch den Dual-Pivot-Quicksort ausprobieren. Dann könnte ich auch drei Threads gleichzeitig starten. Mal sehen, wie es damit aussieht.

Hier mal die "Median of three"-Variante:

> Diese hier war falsch! Die korrekte Version gibt es in Post#15

**AspirinJunkie**

Zitat von Oscar

Vor allem bei bereits sortierten Daten steigt damit die Laufzeit auf das Doppelte an.

Ja das ist natürlich ein gravierendes Problem.
Man will Daten sortieren die bereits sortiert sind und nun braucht der Algorithmus dafür 60 statt 30ms....

Im Grunde macht die Pivot-Auswahl das nicht gravierend langsamer sondern du nutzt durch die Wahl des mittleren Elementes einfach nur den absoluten Best-Case aus (der in der Realität aber keine Rolle spielt).

Wenn der Mehraufwand hierfür zu groß wird kannst du auch versuchen das ganze größenabhängig zu machen:

Bei großen Elementmengen den Median of three, bei kleinen das mittlere/zufällige Element, und bei kleinen Elementmengen Insertion-Sort.

Auch die Frage ob der 3er Median effizienter implementiert werden kann, könnte noch geprüft werden.

Also z. B. wenn es ein Min/Max bei Assembler gibt: max(min(a,b), min(max(a,b),c)) oder sowas.
Wie du es jetzt machst weiß ich nicht - denn ich hab keine Ahnung von Assembler

**Andy**

Zitat von AspirinJunkie

Also z. B. wenn es ein Min/Max bei Assembler gibt: max(min(a,b), min(max(a,b),c)) oder sowas.
Wie du es jetzt machst weiß ich nicht - denn ich hab keine Ahnung von Assembler

min() und max() gibt es als Befehl in der SSE, imho aber für 32Bit-Zahlen nur für Float. Ggf. muss man die integer zuerst in float umwandeln und nach der Berechnung wieder zurück. https://c9x.me/x86/

Und hier die (alten, aber um Klassen besseren) AMD-Docs zu den SSE-Befehlen http://www.share-online.biz/dl/QPV4OG1P30 mit sofort nachvollziehbaren Bildern wie die Register miteinander interagieren.

Ansonsten MIN() als C-Funktion HIER eingeben und schauen, was die diversen Compiler daraus machen :o)

**Oscar**

Zitat von AspirinJunkie

Wenn der Mehraufwand hierfür zu groß wird kannst du auch versuchen das ganze größenabhängig zu machen:

Bei großen Elementmengen den Median of three, bei kleinen das mittlere/zufällige Element, und bei kleinen Elementmengen Insertion-Sort.

Oh Mist, ich habe einen Fehler bei der Umsetzung von "Median of three" (Post#12) gemacht. Statt ECX habe ich EDX geschrieben. Dadurch war der letzte Swap falsch und verursachte längere Laufzeiten.

Und das führte auch zu der sehr langen Laufzeit (> 100 ms) bei bereits sortierten Zahlen.

Nachdem ich den Fehler behoben habe, beträgt die Laufzeit bei sortierten Zahlen jetzt nur noch ca. 3 ms.

Ich verwende jetzt auch immer den "Median of three". Auch für die Slaves. So schwankt die Laufzeit zwischen 30 ms und 45 ms für 1 Mio DWORDs.

Und Insertionsort für kleine (< 45) Elementmengen verwende ich doch bereits.

Hier die korrekte Version:

AutoIt

#AutoIt3Wrapper_UseX64=n                          ; 32Bit-Modus
#include <Memory.au3>
#include <Array.au3>
#include <Timers.au3>
#include "assembleit2_64.au3"

#Region ASM-Code
#cs ASM_Sort
    Use32                                            ; 32Bit Modus!
    mov edi,dword[esp+4]                             ; edi = Pointer auf die Paramstruct
    mov esi,dword[edi]                               ; esi = Pointer auf die Datenstruct
    mov edx,dword[edi+4]                             ; edx = right = Anzahl der Daten
    dec edx                                          ; um eins verringern, weil die Datenstruct bei 0 beginnt
    mov eax,dword[edi+8]                             ; eax = ThreadID
    movd xmm2,eax                                    ; xmm2 = ThreadID sichern
    xor ecx,ecx                                      ; ecx = left (auf 0 setzen)
    push edx ecx                                     ; right und left auf den Stack (fuer Quicksort)
    call quicksort                                   ; Quicksort aufrufen (die Datenstruct sortieren)
    ret                                              ; Daten sortiert (Funktion beenden)

    quicksort:                                       ; die Quick-/Insertionsort-Funktion
        mov ecx,dword[esp+4]                         ; ecx = left
        mov edx,dword[esp+8]                         ; edx = right
        cmp ecx,edx                                  ; left und right vergleichen
        jae @end                                     ; wenn left >= right, dann Funktion beenden
            mov eax,edx
            sub eax,ecx                              ; right - left
            cmp eax,45                               ; mehr als 45 Elemente?
            jg @quick                                ; wenn ja, dann Quicksort
                mov edi,ecx                          ; Nein, dann Insertionsort
                inc edi                              ; edi = $i = left + 1
                @fori:
                    mov ebx,dword[esi+edi*4]         ; ebx = Data[Insert]
                    mov eax,edi                      ; eax = $j = Insertpos
                    @forj:                           ; Einfuegeschleife
                        cmp eax,ecx                  ; Anfang erreicht?
                        jbe @break                   ; Ja, dann @break
                        cmp dword[esi-4+eax*4],ebx   ; Data[j-1] < Data[Insert]
                        jbe @break                   ; Ja, dann @break
                        movd xmm0,dword[esi-4+eax*4] ; Data[j-1] holen
                        movd dword[esi+eax*4],xmm0   ; als Data[j] speichern
                        dec eax                      ; j--
                        jmp @forj                    ; forj fortsetzen
                    @break:
                        mov dword[esi+eax*4],ebx     ; Data[Insert] nach Data[j] speichern
                        inc edi                      ; i++
                        cmp edi,edx                  ; i > right
                        jbe @fori                    ; Nein, dann @fori
                ret 8                                ; Insertionsort beendet, Funktion verlassen
            @quick:                                  ; hier beginnt der Quicksort-Bereich
            push edx ecx                             ; edx und ecx auf den Stack (fuer Partition)
            call partition                           ; Partition aufrufen Return = ebx (Splitposition)
            pop ecx edx                              ; ecx und edx wiederherstellen
            movd eax,xmm2                            ; ThreadID wiederherstellen
            cmp eax,0                                ; ThreadID = 0 (Master-Thread)?
            jnz @f                                   ; Nein, dann ueberspringen
                mov eax,ebx                          ; Ja, dann eax = ebx (Splitposition)
                ret 8                                ; Funktion verlassen (eax = Rueckgabe an AutoIt)
            @@:
            push ebx edx                             ; Register sichern
            push ebx ecx                             ; ebx und ecx auf den Stack (right und left fuer Quicksort)
            call quicksort                           ; Quicksort aufrufen (rekursiv)
            pop edx ebx                              ; Register wiederherstellen
            inc ebx                                  ; ebx++
            push edx ebx                             ; edx und ebx auf den Stack (right und left fuer Quicksort)
            call quicksort                           ; Quicksort aufrufen (rekursiv)
        @end:
        ret 8                                        ; Quicksort-Funktion beendet (2 DWORDs = 8 Byte vom Stack loeschen)

    partition:
        mov ecx,dword[esp+4]                         ; ecx = left
        mov edx,dword[esp+8]                         ; edx = right
        ; Anfang "Median of three" (left, middle, right)
        mov eax,edx                                  ; eax = right
        sub eax,ecx                                  ; eax -= left
        shr eax,1                                    ; eax geteilt durch 2
        add eax,ecx                                  ; eax += left = mid
        mov edi,dword[esi+edx*4]                     ; edi = data[right]
        cmp edi,dword[esi+ecx*4]
        jae @f                                       ; data[right] >= data[left] dann ueberspringen
            movd xmm0,dword[esi+ecx*4]               ; xmm0 = data[left]
            mov dword[esi+ecx*4],edi                 ; swap data[left] <-> data[right]
            movd dword[esi+edx*4],xmm0
        @@:
        mov edi,dword[esi+eax*4]                     ; edi = data[mid]
        cmp edi,dword[esi+ecx*4]
        jae @f                                       ; data[mid] >= data[left] dann ueberspringen
            movd xmm0,dword[esi+ecx*4]               ; xmm0 = data[left]
            mov dword[esi+ecx*4],edi                 ; swap data[left] <-> data[mid]
            movd dword[esi+eax*4],xmm0
        @@:
        mov edi,dword[esi+edx*4]                     ; edi = data[right]
        cmp edi,dword[esi+eax*4]
        jae @f                                       ; data[right] >= data[mid] dann ueberspringen
            movd xmm0,dword[esi+eax*4]               ; xmm0 = data[mid]
            mov dword[esi+eax*4],edi                 ; swap data[mid] <-> data[right]
            movd dword[esi+edx*4],xmm0
        @@:
        movd xmm0,dword[esi+ecx*4]                   ; xmm0 = data[left]
        mov edi,dword[esi+eax*4]                     ; edi = data[mid]
        mov dword[esi+ecx*4],edi                     ; swap data[left] <-> data[mid]
        movd dword[esi+eax*4],xmm0
        ; edi = data[left] = Pivotwert (durch "Median of three" nach left getauscht)
        ; Ende "Median of three"
        mov eax,ecx                                  ; eax = left
        dec eax                                      ; eax-- (left-1)
        mov ebx,edx                                  ; ebx = right
        inc ebx                                      ; ebx++ (right+1)
        @loop:                                       ; Hauptschleife
            @left:                                   ; Schleife fuer die linke Seite
                inc eax                              ; left++
                cmp dword[esi+eax*4],edi             ; Vergleich Data[left] mit Pivotwert
                jb @left                             ; wenn kleiner, dann Schleife @left
            @right:                                  ; Schleife fuer die rechte Seite
                dec ebx                              ; right--
                cmp dword[esi+ebx*4],edi             ; Vergleich Data[right] mit Pivotwert
                ja @right                            ; wenn groesser, dann Schleife @right
            cmp eax,ebx                              ; Vergleich left und right
            jae @return                              ; wenn groesser/gleich, dann @return
            mov ecx,dword[esi+eax*4]                 ; Data[left] gegen Data[right] austauschen
            mov edx,dword[esi+ebx*4]
            mov dword[esi+eax*4],edx
            mov dword[esi+ebx*4],ecx
            jmp @loop                                ; und mit @loop fortfahren
        @return:
        ret
#ce
#EndRegion ASM-Code

#region AssembleIt ; wenn diese 3 Zeilen aktiv sind, dann wird der obige ASM-Code in Binaercode umgewandelt
;~ $binarycode = _AssembleIt2('retbinary', 'ASM_Sort') ; gibt nur den assemblierten code zurück
;~ ConsoleWrite('$binarycode = "' & $binarycode & '"' & @CRLF)
;~ Exit
#EndRegion AssembleIt

#Region ASM-Binaercode ; $__g_bASMCode entspricht dem obigen ASM-Code im Binaerformat
Global Const $__g_bASMCode = '0x8B7C24048B378B57044A8B4708660F6ED031C95251E801000000C38B4C24048B54240839D1735E89D029C883F82D7F2B89CF478B1CBE89F839C87614395C86FC760E660F6E4486FC660F7E048648EBE8891C864739D776DBC208005251E826000000595A660F7ED083F800750589D8C2080053525351E8A0FFFFFF5A5B435253E896FFFFFFC208008B4C24048B54240889D029C8D1E801C88B3C963B3C8E730D660F6E048E893C8E660F7E04968B3C863B3C8E730D660F6E048E893C8E660F7E04868B3C963B3C86730D660F6E0486893C86660F7E0496660F6E048E8B3C86893C8E660F7E048689C84889D34340393C8672FA4B393C9E77FA39D8730E8B0C868B149E891486890C9EEBE2C3'
Global Const $__g_iMemSize = StringLen($__g_bASMCode) / 2 - 1 ; Codelaenge ermitteln
Global Const $__g_pMem = _MemVirtualAlloc(0, $__g_iMemSize, $MEM_COMMIT, $PAGE_EXECUTE_READWRITE) ; Virtuellen Speicher reservieren
If $__g_pMem = 0 Then Exit MsgBox(16, 'Error!', "Can't allocate virtual memory!")
Global $__g_tASMCode = DllStructCreate('byte[' & $__g_iMemSize & ']', $__g_pMem) ; Structur fuer den Binaercode erstellen
DllStructSetData($__g_tASMCode, 1, $__g_bASMCode) ; den Binaercode in die Structur schreiben
Global $__g_pASMCode = DllStructGetPtr($__g_tASMCode) ; den Pointer der Structur holen
ConsoleWrite(StringFormat('ASM-Code-Size:\t%i Bytes\n', $__g_iMemSize))
#EndRegion ASM-Binaercode

#Region Test-Vorbereitungen
Global $iCount = 1000000, $iTimer, $ret ; $iCount = Anzahl der Array-Elemente
ConsoleWrite(StringFormat('Test-Struct:\t%i Elemente\n', $iCount))
#EndRegion Test-Vorbereitungen

#Region Zufalls-Struct erstellen
$iTimer = _Timer_Init()
Global $tData = DllStructCreate('dword[' & $iCount & ']')
Global $pData = DllStructGetPtr($tData)
For $i = 0 To $iCount - 1
    DllStructSetData($tData, 1, Random(0, 2^31-1, 1), $i + 1)
;~     DllStructSetData($tData, 1, $i + 1, $i + 1)
Next
ConsoleWrite(StringFormat('StructCreate:\t%.3f ms\n\n', Round(_Timer_Diff($iTimer), 3)))
#EndRegion Zufalls-Struct erstellen

#Region Master-Thread
; der Master-Thread nimmt die erste Partitionierung vor und die beiden Partitionen
; werden dann von den beiden Einzelthreads parallel sortiert
$iTimer = _Timer_Init()
Global $iThreads = 3, $atParam[$iThreads], $apParams[$iThreads], $iSplit, $ahThread[2]
For $i = 0 To $iThreads - 1
    $atParam[$i] = DllStructCreate('ptr data;dword count;dword threadid')
    $apParams[$i] = DllStructGetPtr($atParam[$i])
Next

DllStructSetData($atParam[0], 'data', $pData)
DllStructSetData($atParam[0], 'count', $iCount)
DllStructSetData($atParam[0], 'threadid', 0)
$ret = DllCallAddress('uint:cdecl', $__g_pASMCode, 'ptr', $apParams[0])
$iSplit = $ret[0]
#EndRegion Master-Thread

#Region Multi-Thread
; die Uebergabeparameter in die Parameter-Struct fuer beide Threads eintragen
DllStructSetData($atParam[1], 'data', $pData)
DllStructSetData($atParam[1], 'count', $iSplit - 1)
DllStructSetData($atParam[1], 'threadid', 1)

DllStructSetData($atParam[2], 'data', $pData + ($iSplit + 1) * 4)
DllStructSetData($atParam[2], 'count', $iCount - $iSplit - 1)
DllStructSetData($atParam[2], 'threadid', 1)

$ret = DllCall("kernel32.dll", "hwnd", "CreateThread", "ptr", 0, "dword", 0, "long", $__g_pASMCode, "ptr", $apParams[1], "long", 0, "int*", 0)
$ahThread[0] = $ret[0]

$ret = DllCall("kernel32.dll", "hwnd", "CreateThread", "ptr", 0, "dword", 0, "long", $__g_pASMCode, "ptr", $apParams[2], "long", 0, "int*", 0)
$ahThread[1] = $ret[0]

Global $iExit
Do
    $iExit = 0
    For $i = 0 To UBound($ahThread) - 1
        $ret = DllCall("Kernel32.dll", "uint64", "GetExitCodeThread", "ptr", $ahThread[$i], "dword*", 0)
        If $ret[2] <> 259 Then $iExit += 1
    Next
Until $iExit = UBound($ahThread)
ConsoleWrite(StringFormat('ASM_Sort:\t%.3f ms\n', Round(_Timer_Diff($iTimer), 3)))
ConsoleWrite(StringFormat('Split-Element:\t%.i\n\n', $iSplit))
#EndRegion Multi-Thread

_MemVirtualFree($__g_pMem, $__g_iMemSize, $MEM_DECOMMIT)

Alles anzeigen

**Andy**

Oscar, TOP ASM-Code, handoptimiert und mit Multithreading den letzten Schliff gegeben.

Bin mal gespannt wo das endet....

**Oscar**

Zitat von Andy

Oscar, TOP ASM-Code, handoptimiert und mit Multithreading den letzten Schliff gegeben.

Bin mal gespannt wo das endet....

Danke!

Wobei ich an dieser Stelle Dir auch nochmal für Deine "assembleit2_64.au3"-UDF danken möchte.

Die macht das einbinden von ASM in AutoIt doch erheblich einfacher.

Leider ist die Lernkurve bei Assembler ja recht steil. Im Gegensatz zu AutoIt findet man recht wenig passende Dokus.

Aber vielleicht kannst Du mir weiterhelfen:

Die XMM-Register sind ja 128 Bit breit. Ich kann also 128 Bit (4 DWORDs) in einem Rutsch aus dem Speicher lesen.

Aber wie komme ich an die einzelnen DWORDs ran?

Wie bekomme ich die in ein 32-Bit-Register z.B. nach EAX?

**Andy**

Hi!

Ich hatte im vorigen Post die (alte) PDF-Datei von AMD mit den 128-Bit-Erweiterungen, also die SSE-Befehle, angehängt.

Ich finde diese PDF deshalb klasse, weil bei den Funktionen sämtliche Vorgänge der Register(inhalte) untereinander bebildert sind. Ich frage mich immer wieder, wie viele "Freaks" die aktuellen Doc´s von Intel und AMD in die Ecke feuern, weil definitiv KEIN MENSCH anhand der dortigen "Erklärungen" weiß, was in einem Register abläuft. Ein Bild sagt mehr als 1000 Worte!

Zitat von Oscar

Leider ist die Lernkurve bei Assembler ja recht steil. Im Gegensatz zu AutoIt findet man recht wenig passende Dokus.

Du hast ja beeindruckend gezeigt, dass es trotzdem geht. Assembler ist ja kein Hexenwerk entgegen den heutzutage gängigen Programmiersprachen. Du hast eine Handvoll Register, den Speicherplatz und eine Handvoll EINFACHER(!!!) Befehle was gemacht werden soll.

Schlimmstenfalls muss man den Debugger bemühen. Und sich das Vorher-Nachher-Ergebnis anschauen....und "Bugs" GIBT ES NICHT!

Um etwas tiefer einzusteigen, empfehle ich die Beiträge, Manuals und Doc´s von Agner Fog. Sowohl für Compilerverwender als auch für die hardcore-ASM-Freaks ist das alles Stoff für unter das Kopfkissen

Zitat von Oscar

Die XMM-Register sind ja 128 Bit breit. Ich kann also 128 Bit (4 DWORDs) in einem Rutsch aus dem Speicher lesen.

Aber wie komme ich an die einzelnen DWORDs ran?

Bei SSE gibt es sicher 20 unterschiedliche MOV(XXX)-Befehle. Alle transferieren Speicherbereiche in Register bzw Register in Register. Das einzige, was beachtet werden muss ist das sog. alignment des Speicherzugriffs auf 16-Byte-Adressen. Aber auch für unaligned Speicherzugriffe gibt es (etwas langsamere) Befehle.

Um 4 DWORDS aus dem Speicher in ein Register zu schieben, bietet sich MOVDQU (das U für Unaligned) an. Bei Bitmaps liegen die Daten oder Pixel idR. hintereinander im Speicher. Da die Bitmap beim Erstellen durch GDI(plus) glücklicherweise schon 16-Byte aligned angelegt wird, bietet sich zum blockweisen auslesen von 4 dword/int/uint usw. der aligned Zugriff, also MOVDQA, an.

Aber das ist schon die hohe Kunst. Zum Erstellen von einfachen Tests und Programmen verwende einfach immer die Unaligned-Befehle, die Handvoll Speichertakte für den "länger dauernden" Zugriff sind meist die Mühe durch den Absturz(!) nicht wert. Beim aligned Zugriff auf eine unaligned Adresse folgt nämlich der Absturz, man bemerkt seine Fehler SOFORT deutlich

Übrigens macht es durchaus Sinn, die SSE-Befehle nur auf einen Teil der 128 Bit anzuwenden, viele Compiler machen das so, da die SSE-Befehle in einer eigenen Pipeline im Prozessor laufen und zu allem Überfluss auch noch extrem schnell abgearbeitet werden, idR. für die Standard-Befehle nur EIN Prozessortakt! Übrigens kann man die Registerinhalte, also die DWORDS, BYTES usw. innerhalb der Register beliebig anordnen, Eukalyptus hier aus dem Forum hat dazu ein wunderschönes AutoIt-Script erstellt.

Wenn du Fragen hast, egal zu was, bitte fragen! Ich weiß zwar nicht (mehr) viel, aber habe eine umfangreiche Sammlung von Dokumenten, Scripten und Tips und Tricks.

Und da du ja fit in C(++) bist, die Seite https://godbolt.org zeigt dir anschaulich, was diverse Compiler aus C++-Code machen, und wie mies dieser dann oft ist! Das "rumspielen" mit Compilerschaltern ändert dann oft das Compilerverhalten und zeigt meist auf den ersten Blick den "besseren" Code!

**Musashi**

Hallo Andy !

Zitat von Andy

Und hier die (alten, aber um Klassen besseren) AMD-Docs zu den SSE-Befehlen http://www.share-online.biz/dl/QPV4OG1P30 mit sofort nachvollziehbaren Bildern wie die Register miteinander interagieren.

Frage :

Wenn Du schreibst, dass die alten AMD-Docs um Klassen besser sind, meinst Du das im Vergleich zu den aktuellen Revisionen dieser Docs, oder zu neueren Dokumentationen im Allgemeinen ?

Auf den schnellen Blick scheint die Revision 3.10 (September 2007) des Volumes 4 tatsächlich einige Grafiken zu enthalten, die in der Revision 3.21 (Dezember 2017) fehlen, bzw. anders dargestellt werden.

Ich habe den aktuellen Stand des AMD-Programmer’s Manual (mit Links) hier mal zusammengefasst !

Das Manual setzt sich aus den folgenden Volumes zusammen :

Volume 1: Application Programming 24592

Volume 2: System Programming 24593

Volume 3: General-Purpose and System Instructions 24594

Volume 4: 128-Bit and 256-Bit Media Instructions 26568

Volume 5: 64-Bit Media and x87 Floating-Point Instructions 26569

Downloadinfos :

AMD64 Architecture - Programmer’s Manual Volume 1

Application Programming

Publication No.=24592 Rev.=3.22 Date=December 2017

Download : https://support.amd.com/TechDocs/24592.pdf

AMD64 Architecture - Programmer’s Manual Volume 2

System Programming

Publication No.=24593 Rev.=3.29 Date=December 2017

Download : https://support.amd.com/TechDocs/24593.pdf

AMD64 Architecture - Programmer’s Manual Volume 3

General-Purpose and System Instructions

Publication No.=24594 Rev.=3.25 Date=December 2017

Download : https://support.amd.com/TechDocs/24594.pdf

AMD64 Architecture - Programmer’s Manual Volume 4

128-Bit and 256-Bit Media Instructions

Publication No.=26568 Rev.=3.21 Date=December 2017

Download : https://support.amd.com/TechDocs/26568.pdf

'Ältere Version' von Andy :

AMD64 Architecture - Programmer’s Manual Volume 4

128-Bit Media Instructions

Publication No.=26568 Rev.=3.10 Date=September 2007

Download : http://www.share-online.biz/dl/QPV4OG1P30

AMD64 Architecture - Programmer’s Manual Volume 5

64-Bit Media and x87 Floating-Point Instructions

Publication No.=26569 Rev.=3.14 Date=September 2016

Download : https://support.amd.com/TechDocs/26569_APM_v5.pdf

Ob man diese PDF's direkt hier im Forum posten darf, kann und möchte ich nicht beurteilen .

Im Lizenztext steht (Auszug) :

"Durch dieses Dokument wird keine Lizenz, auch nicht implizit oder durch Rechtsverwirkung, für geistige Eigentumsrechte gewährt."

Da die Links zu den neuen Revisionen aber von 2016/2017 stammen, dürften sie wohl noch für längere Zeit Bestand haben.

Schlussbemerkung :

Ich finde das ganze Thema wirklich spannend, auch wenn mir wahrscheinlich (leider) die Zeit fehlt, intensiver einzusteigen. Meine oberflächlichen Gehversuche dbzgl. stammen noch aus dem letzten Jahrtausend .

Trotzdem dürfte es einige interessierte, wenn auch stille, Mitleser geben. In diesem Sinne - Weiter so

Gruß Musashi

**Andy**

Zitat von Musashi

Wenn Du schreibst, dass die alten AMD-Docs um Klassen besser sind, meinst Du das im Vergleich zu den aktuellen Revisionen dieser Docs, oder zu neueren Dokumentationen im Allgemeinen ?

Ich meine die 128Bit-Media-Instructions, also die Referenz der SSE-Befehle Public.nr. #26568. In den neueren Versionen ist keine einzige (!) grafische Entsprechung. Kein Wunder, dass so gut wie niemand diese Befehlserweiterungen nutzt, übrigens auch per Intrinsics aus diversen Hochsprachen heraus, wenn niemand auch nur annähernd lt. der Beschreibung in der Lage ist nachzuvollziehen, was diese Befehle überhaupt bewirken!

Der Witz dabei ist, dass jeder sofort anhand der grafischen Entsprechung im Debugger SEHEN kann, wie die Inhalte der 128-Bit-Register aussehen sollten.

Siehe Eukalyptus´Shuffle-Script. Da sieht jeder sofort durch und "sieht" auch direkt den Befehl, den man benutzen muss um eine bestimmte Aktion auszulösen....

pasted-from-clipboard.png

Da lese ich nicht mal mehr den Text sondern suche in den Doc´s nur noch nach den entsprechenden "Bildern". Die kann man sich auch merken, wenn man diese Befehle nicht oft benutzt, so nach dem Motto "...habe ich doch schon mal irgendwo gesehen...."

Wie gesagt, alle diese SSE-Befehle sind (mindestens) per Intrinsics in C++ bzw. den gängigen Compilersprachen nutzbar!!! Verwendung dort...so gut wie NULL! Wieso?....Siehe die "neuen" entsprechenden Beschreibungen....Von AVX ganz zu schweigen....