GetUniqueColors

**Andy**

Hallo Oscar,

zunächst: [Blockierte Grafik: http://smilie-land.de/t/t-v/verneigen/verneigen0010.gif] TOP(!!) Leistung.

Ggf solltest du in deinem Post die Version posten, welche kein AssembleIt() benötigt, für diejenigen die "nur" deinen Code ausprobieren wollen benötigt man ausschliesslich AutoIt!

Das _DllStructCreate64() habe ich auch rausgenommen, ist nur für die 64-Bit-Kompatibilität (also 64-Bit-ASM-Code) nötig.

C

#AutoIt3Wrapper_UseX64=n                          ; 32Bit-Modus
#include <GDIPlus.au3>
#include <Memory.au3>
;#include "assembleit2_64.au3"

#Region ASM-Code
#cs _CountUniqueColors                            ;
    Use32                                         ; 32Bit Modus!
;~     org $PTR_SOURCE_ASMCODE                       ; only needed for assembleit debugger
    mov esi,dword[esp+4]                          ; esi = Pixelstruct-Pointer
    mov edx,dword[esp+8]                          ; edx = right & Pixelcounter
    dec edx                                       ; um eins verringern, weil die Pixelstruct bei 0 beginnt
    push edx                                      ; edx fuer die Zaehlschleife sichern
    xor ecx,ecx                                   ; ecx = left (auf 0 setzen)
    push edx                                      ; right auf den Stack (fuer Quicksort)
    push ecx                                      ; left auf den Stack (fuer Quicksort)
    call quicksort                                ; Quicksort aufrufen (die Pixelstruct sortieren)
    pop edx                                       ; edx wiederherstellen
    mov eax,1                                     ; eax auf 1 setzen (Farbzaehler)
    mov ebx,dword[esi+edx*4]                      ; ebx = Farbwert des letzten Pixels (zum Farbvergleich)
    @count:                                       ; Zaehlschleife fuer die Farben
        dec edx                                   ; Pixelcounter runterzaehlen
        mov ecx,dword[esi+edx*4]                  ; ecx = Farbwert des vorletzten Pixels (zum Farbvergleich)
        cmp ecx,ebx                               ; ecx mit ebx vergleichen
        jae @next                                 ; wenn groesser/gleich, dann mit naechsten Pixel weitermachen
            inc eax                               ; wenn kleiner, dann Farbzaehler um eins erhoehen
            mov ebx,ecx                           ; und die dazugehoerige Farbe merken
        @next:
        cmp edx,0
        jnz @count                                ; wenn noch nicht 0, dann Schleife @count
    ret                                           ; Pixelcounter an AutoIt zurueckgeben (eax)

    quicksort:                                    ; die Quicksort-Funktion
        mov ecx,dword[esp+4]                      ; ecx = left
        mov edx,dword[esp+8]                      ; edx = right
        cmp ecx,edx                               ; left und right vergleichen
        jae @end                                  ; wenn groesser/gleich, dann Funktion beenden
;~             _ASMDBG_()                            ; debug-gui anzeigen
            push edx                              ; edx sichern
            push ecx                              ; ecx sichern
            push edx                              ; edx auf den Stack (fuer Partition)
            push ecx                              ; ecx auf den Stack (fuer Partition)
            call partition                        ; Partition aufrufen
            pop ecx                               ; ecx wiederherstellen
            pop edx                               ; edx wiederherstellen
            push ebx                              ; ebx sichern
            push edx                              ; edx sichern
            push ecx                              ; ecx sichern
            push ebx                              ; eax auf den Stack (right fuer Quicksort)
            push ecx                              ; ecx auf den Stack (left fuer Quicksort)
            call quicksort                        ; Quicksort aufrufen (rekursiv)
            pop ecx                               ; ecx wiederherstellen
            pop edx                               ; edx wiederherstellen
            pop ebx                               ; ebx wiederherstellen
            inc ebx                               ; ebx++
            push edx                              ; edx auf den Stack (right fuer Quicksort)
            push ebx                              ; ebx auf den Stack (left fuer Quicksort)
            call quicksort                        ; Quicksort aufrufen (rekursiv)
        @end:
        ret 8

    partition:
        mov ecx,dword[esp+4]                      ; ecx = left
        mov edx,dword[esp+8]                      ; edx = right
        mov edi,dword[esi+ecx*4]                  ; edi = Pivotwert = Pixel[left]
        mov eax,ecx
        dec eax                                   ; eax = left - 1
        mov ebx,edx
        inc ebx                                   ; ebx = right + 1
;~         _ASMDBG_()                                ; debug-gui anzeigen
        @loop:                                    ; Hauptschleife
            @left:                                ; Schleife fuer die linke Seite
                inc eax                           ; left++
                cmp dword[esi+eax*4],edi          ; Vergleich mit Pivotwert
                jb @left                          ; wenn kleiner, dann Schleife @left
            @right:                               ; Schleife fuer die rechte Seite
                dec ebx                           ; right--
                cmp dword[esi+ebx*4],edi          ; Vergleich mit Pivotwert
                ja @right                         ; wenn groesser, dann Schleife @right
            cmp eax,ebx                           ; Vergleich left und right
            jae @return                           ; wenn groesser/gleich, dann @return
            mov ecx,dword[esi+eax*4]              ; Pixel[left] gegen Pixel[right] austauschen
            mov edx,dword[esi+ebx*4]
            mov dword[esi+eax*4],edx
            mov dword[esi+ebx*4],ecx
            jmp @loop                             ; und mit @loop fortfahren
        @return:
        ret 8                                     ; right zurueckgeben (ebx)
#ce
#EndRegion ASM-Code

;~ $binarycode = _AssembleIt2("retbinary", "_CountUniqueColors") ;gibt nur den assemblierten code zurück
;~ ConsoleWrite('@@ Debug(' & @ScriptLineNumber & ') : $binarycode = ' & ($binarycode) & @CRLF & '>Error code: ' & @error & @CRLF) ;### Debug Console
;~ Exit
Global $g_pMem, $g_iMemSize, $bCode, $tCodeBuffer, $hImage, $iW, $iH, $iTimer, $tBitmapData, $pScan0, $tPixel, $pPixel, $tColors, $pColors, $ret
;~ $bCode = "0x8B7424048B5424084A5231C95251E81D0000005A31C08B1C964A8B0C9639D97201408B0C9639D973034089CB4A75F3C38B4C24048B54240839D1732052515251E81A000000595A5352515351E8DFFFFFFF595A5B435253E8D4FFFFFFC208008B4C24048B5424088B3C8E89C84889D34340393C8672FA4B393C9E77FA39D8730E8B0C868B149E891486890C9EEBE2C20800"
;~ $tCodeBuffer = _dllstructcreate64_("byte[" & StringLen($bCode) / 2 - 1 & "]") ;reserve Memory for opcodes
;~ DllStructSetData($tCodeBuffer, 1, $bCode)

_GDIPlus_Startup()

$file = FileOpenDialog("Select 32 Bpp image!", @ScriptDir, "Image (*.jpg;*.bmp;*.png)", 1 + 2)
;~ $hImage = _GDIPlus_BitmapCreateFromFile(@ScriptDir & '\test_g.jpg')
$hImage = _GDIPlus_BitmapCreateFromFile($file)
;~ $hImage = _GDIPlus_BitmapCreateFromFile(@ScriptDir & '\test.png')

$aDim =  _GDIPlus_ImageGetDimension($hImage)
ConsoleWrite(StringFormat('_GetUniqueColors (ASM)\n%d x %d = %s px\n', $aDim[0], $aDim[1], $aDim[0] * $aDim[1]))
$iTimer = TimerInit()

$tBitmapData = _GDIPlus_BitmapLockBits($hImage, 0, 0, $aDim[0], $aDim[1], BitOR($GDIP_ILMREAD, $GDIP_ILMWRITE), $GDIP_PXF32ARGB)
ConsoleWrite('Zeit (BitmapLockBits): ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)

$tPixel = DllStructCreate('dword[' & $tBitmapData.Width * $tBitmapData.Height & '];', $tBitmapData.Scan0) ; erstelle Pixelstruct (dword = 32 Bit pro Pixel)
$pPixel = DllStructGetPtr($tPixel)
ConsoleWrite('Zeit (Pixelstruct): ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)





;$binarycode = _AssembleIt2("retbinary", "_CountUniqueColors") ;assembles the code into binary

$binarycode="0x8B7424048B5424084A5231C95251E81A0000005AB8010000008B1C964A8B0C9639D973034089CB83FA0075F0C38B4C24048B54240839D1732052515251E81A000000595A5352515351E8DFFFFFFF595A5B435253E8D4FFFFFFC208008B4C24048B5424088B3C8E89C84889D34340393C8672FA4B393C9E77FA39D8730E8B0C868B149E891486890C9EEBE2C20800"

;~ ConsoleWrite('@@ Debug(' & @ScriptLineNumber & ') : $binarycode = ' & $binarycode & @CRLF & '>Error code: ' & @error & @CRLF) ;### Debug Console

Global $tCodeBuffer = DllStructCreate("byte[" & StringLen($binarycode) / 2 - 1 & "]") ;reserve Memory for opcodes
DllStructSetData($tCodeBuffer, 1, $binarycode)

$ret = DllCallAddress("uint:cdecl", DllStructGetPtr($tCodeBuffer), "ptr", $pPixel, "dword", $tBitmapData.Width * $tBitmapData.Height)
$ret = $ret[0]
;$ret = _AssembleIt2("dword", "_CountUniqueColors", "ptr", $pPixel, "dword", $tBitmapData.Width * $tBitmapData.Height)
ConsoleWrite('Anzahl der Farben = ' & $ret & @CR)
ConsoleWrite('Zeit: ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)

_GDIPlus_BitmapUnlockBits($hImage, $tBitmapData)
$tPixel = 0
$tColors = 0
$tBitmapData = 0
_GDIPlus_BitmapDispose($hImage)
_GDIPlus_Shutdown()
;~ _MemVirtualFree($g_pMem, $g_iMemSize, $MEM_DECOMMIT)
Exit

Alles anzeigen

Jetzt noch ein ganz privates Statement meinerseits....DANKE! Ich war all die Jahre zu faul, einen Quicksort in ASM zu erstellen, ich werde mich in Zukunft an deinem Code bedienen.

Zitat von Oscar

Mein Quicksort ist eine rekursive Variante, die den Stack ausgiebig nutzt, aber dafür ansonsten nur den Speicher der Pixelstruct (für das Bild) benutzt.

Das ist auch der Hauptgrund für die vergleichbare "Langsamkeit". Stack heißt Speicherzugriffe, und die kosten Zeit. Schlimmstenfalls liegen die rechten/linken Pixeladressen nicht im Cache und dann tritt der Supergau auf: Cachemiss. Das kostet je nach Prozessor massig Takte!

Daran ist aber nicht deine Umsetzung schuld, sondern der für die landläufige PC-Architektur "langsame" (sprich Speicherzugriffstechnisch aufwendige) Quicksort-Algorithmus.

Mir würde jetzt auf Anhieb nicht einfallen, wie man vorliegenden Code stark beschleunigen könnte.

//EDIT

Habe mal per RDTSC die Prozessor-Takte pro Pixel ausgeben lassen, bei kleinen Bildern ist Quicksort algorithmusbedingt "langsam" mit ca. 200-300 Takten/Pixel.

Bei deinem 7680 x 4320 Testbild gibt der Algorithmus richtig Gas und kommt bei mir auf 15-20 Takte/Pixel!!!

//EDIT2

Nachdem nochmals verifiziert, komme ich mit diversen 12MP-Bildern auf ca. 150 Takte/Pixel

**Oscar**

Zitat von Andy

zunächst: TOP(!!) Leistung.

Danke! Als Assembler-Anfänger hört man das gern.

Ich habe zwar schonmal in Assembler programiert, aber das war auf dem C64.

Zitat von Andy

Jetzt noch ein ganz privates Statement meinerseits....DANKE! Ich war all die Jahre zu faul, einen Quicksort in ASM zu erstellen, ich werde mich in Zukunft an deinem Code bedienen

Oh, das hätte ich jetzt nicht gedacht!

Darfst Dich aber gern bedienen.

Zitat von Andy

Das ist auch der Hauptgrund für die vergleichbare "Langsamkeit". Stack heißt Speicherzugriffe, und die kosten Zeit. Schlimmstenfalls liegen die rechten/linken Pixeladressen nicht im Cache und dann tritt der Supergau auf: Cachemiss. Das kostet je nach Prozessor massig Takte!

Daran ist aber nicht deine Umsetzung schuld, sondern der für die landläufige PC-Architektur "langsame" (sprich Speicherzugriffstechnisch aufwendige) Quicksort-Algorithmus.

Mir würde jetzt auf Anhieb nicht einfallen, wie man vorliegenden Code stark beschleunigen könnte.

Ok!

Bei der "Partition-Funktion" habe ich noch zwei Stackzugriffe entfernen können. Ich muss die einfach am Ende nicht vom Stack löschen, dann brauche ich sie nicht doppelt auf den Stack packen.

Bei der rekursiven Quicksort geht das hingegen nicht, weil ich einerseits die ecx,edx-Werte brauche und zum anderen aber den ebx-Wert als right bzw. left uebergeben muss.

Aber mir ist da gerade noch etwas eingefallen, wie man evtl. noch Stackzugriffe reduzieren kann.

Ich werde aber erst morgen dazu kommen, das auszutesten. Mal sehen, ob es was bringt...

**Andy**

Hier mal die Version mit Zählen der Takte pro Pixel, vielleicht hilft dir das ja weiter.

C

#AutoIt3Wrapper_UseX64=n                          ; 32Bit-Modus
#include <GDIPlus.au3>
#include <Memory.au3>
#include "assembleit2_64.au3"

#Region ASM-Code
#cs _CountUniqueColors                            ;
    Use32                                         ; 32Bit Modus!


    rdtsc            ;schreibt counter in edx:eax
    movd xmm0,eax   ;sichern


    mov esi,dword[esp+4]                          ; esi = Pixelstruct-Pointer
    mov edx,dword[esp+8]                          ; edx = right & Pixelcounter


    dec edx                                       ; um eins verringern, weil die Pixelstruct bei 0 beginnt
    push edx                                      ; edx fuer die Zaehlschleife sichern
    xor ecx,ecx                                   ; ecx = left (auf 0 setzen)
    push edx                                      ; right auf den Stack (fuer Quicksort)
    push ecx                                      ; left auf den Stack (fuer Quicksort)
    call quicksort                                ; Quicksort aufrufen (die Pixelstruct sortieren)
    pop edx                                       ; edx wiederherstellen
    mov eax,1                                     ; eax auf 1 setzen (Farbzaehler)
    mov ebx,dword[esi+edx*4]                      ; ebx = Farbwert des letzten Pixels (zum Farbvergleich)
    @count:                                       ; Zaehlschleife fuer die Farben
        dec edx                                   ; Pixelcounter runterzaehlen
        mov ecx,dword[esi+edx*4]                  ; ecx = Farbwert des vorletzten Pixels (zum Farbvergleich)
        cmp ecx,ebx                               ; ecx mit ebx vergleichen
        jae @next                                 ; wenn groesser/gleich, dann mit naechsten Pixel weitermachen
            inc eax                               ; wenn kleiner, dann Farbzaehler um eins erhoehen
            mov ebx,ecx                           ; und die dazugehoerige Farbe merken
        @next:
        cmp edx,0
        jnz @count                                ; wenn noch nicht 0, dann Schleife @count


    rdtsc
movd ebx,xmm0
sub eax,ebx



    ret                                           ; Pixelcounter an AutoIt zurueckgeben (eax)

    quicksort:                                    ; die Quicksort-Funktion
        mov ecx,dword[esp+4]                      ; ecx = left
        mov edx,dword[esp+8]                      ; edx = right
        cmp ecx,edx                               ; left und right vergleichen
        jae @end                                  ; wenn groesser/gleich, dann Funktion beenden
;~             _ASMDBG_()                            ; debug-gui anzeigen
            push edx                              ; edx sichern
            push ecx                              ; ecx sichern
            push edx                              ; edx auf den Stack (fuer Partition)
            push ecx                              ; ecx auf den Stack (fuer Partition)
            call partition                        ; Partition aufrufen
            pop ecx                               ; ecx wiederherstellen
            pop edx                               ; edx wiederherstellen
            push ebx                              ; ebx sichern
            push edx                              ; edx sichern
            push ecx                              ; ecx sichern
            push ebx                              ; eax auf den Stack (right fuer Quicksort)
            push ecx                              ; ecx auf den Stack (left fuer Quicksort)
            call quicksort                        ; Quicksort aufrufen (rekursiv)
            pop ecx                               ; ecx wiederherstellen
            pop edx                               ; edx wiederherstellen
            pop ebx                               ; ebx wiederherstellen
            inc ebx                               ; ebx++
            push edx                              ; edx auf den Stack (right fuer Quicksort)
            push ebx                              ; ebx auf den Stack (left fuer Quicksort)
            call quicksort                        ; Quicksort aufrufen (rekursiv)
        @end:
        ret 8

    partition:
        mov ecx,dword[esp+4]                      ; ecx = left
        mov edx,dword[esp+8]                      ; edx = right
        mov edi,dword[esi+ecx*4]                  ; edi = Pivotwert = Pixel[left]
        mov eax,ecx
        dec eax                                   ; eax = left - 1
        mov ebx,edx
        inc ebx                                   ; ebx = right + 1
;~         _ASMDBG_()                                ; debug-gui anzeigen
        @loop:                                    ; Hauptschleife
            @left:                                ; Schleife fuer die linke Seite
                inc eax                           ; left++
                cmp dword[esi+eax*4],edi          ; Vergleich mit Pivotwert
                jb @left                          ; wenn kleiner, dann Schleife @left
            @right:                               ; Schleife fuer die rechte Seite
                dec ebx                           ; right--
                cmp dword[esi+ebx*4],edi          ; Vergleich mit Pivotwert
                ja @right                         ; wenn groesser, dann Schleife @right
            cmp eax,ebx                           ; Vergleich left und right
            jae @return                           ; wenn groesser/gleich, dann @return
            mov ecx,dword[esi+eax*4]              ; Pixel[left] gegen Pixel[right] austauschen
            mov edx,dword[esi+ebx*4]
            mov dword[esi+eax*4],edx
            mov dword[esi+ebx*4],ecx
            jmp @loop                             ; und mit @loop fortfahren
        @return:
        ret 8                                     ; right zurueckgeben (ebx)
#ce
#EndRegion ASM-Code

;~ $binarycode = _AssembleIt2("retbinary", "_CountUniqueColors") ;gibt nur den assemblierten code zurück
;~ ConsoleWrite('@@ Debug(' & @ScriptLineNumber & ') : $binarycode = ' & ($binarycode) & @CRLF & '>Error code: ' & @error & @CRLF) ;### Debug Console
;~ Exit
Global $g_pMem, $g_iMemSize, $bCode, $tCodeBuffer, $hImage, $iW, $iH, $iTimer, $tBitmapData, $pScan0, $tPixel, $pPixel, $tColors, $pColors, $ret
;~ $bCode = "0x8B7424048B5424084A5231C95251E81D0000005A31C08B1C964A8B0C9639D97201408B0C9639D973034089CB4A75F3C38B4C24048B54240839D1732052515251E81A000000595A5352515351E8DFFFFFFF595A5B435253E8D4FFFFFFC208008B4C24048B5424088B3C8E89C84889D34340393C8672FA4B393C9E77FA39D8730E8B0C868B149E891486890C9EEBE2C20800"
;~ $tCodeBuffer = _dllstructcreate64_("byte[" & StringLen($bCode) / 2 - 1 & "]") ;reserve Memory for opcodes
;~ DllStructSetData($tCodeBuffer, 1, $bCode)

_GDIPlus_Startup()

$file = FileOpenDialog("Select 32 Bpp image!", @ScriptDir, "Image (*.jpg;*.bmp;*.png)", 1 + 2)
;~ $hImage = _GDIPlus_BitmapCreateFromFile(@ScriptDir & '\test_g.jpg')
$hImage = _GDIPlus_BitmapCreateFromFile($file)
;~ $hImage = _GDIPlus_BitmapCreateFromFile(@ScriptDir & '\test.png')

$aDim =  _GDIPlus_ImageGetDimension($hImage)
ConsoleWrite(StringFormat('_GetUniqueColors (ASM)\n%d x %d = %s px\n', $aDim[0], $aDim[1], $aDim[0] * $aDim[1]))
$iTimer = TimerInit()

$tBitmapData = _GDIPlus_BitmapLockBits($hImage, 0, 0, $aDim[0], $aDim[1], BitOR($GDIP_ILMREAD, $GDIP_ILMWRITE), $GDIP_PXF32ARGB)
ConsoleWrite('Zeit (BitmapLockBits): ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)

$tPixel = DllStructCreate('dword[' & $tBitmapData.Width * $tBitmapData.Height & '];', $tBitmapData.Scan0) ; erstelle Pixelstruct (dword = 32 Bit pro Pixel)
$pPixel = DllStructGetPtr($tPixel)
ConsoleWrite('Zeit (Pixelstruct): ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)





$binarycode = _AssembleIt2("retbinary", "_CountUniqueColors") ;assembles the code into binary

;$binarycode="0x8B7424048B5424084A5231C95251E81A0000005AB8010000008B1C964A8B0C9639D973034089CB83FA0075F0C38B4C24048B54240839D1732052515251E81A000000595A5352515351E8DFFFFFFF595A5B435253E8D4FFFFFFC208008B4C24048B5424088B3C8E89C84889D34340393C8672FA4B393C9E77FA39D8730E8B0C868B149E891486890C9EEBE2C20800"

;~ ConsoleWrite('@@ Debug(' & @ScriptLineNumber & ') : $binarycode = ' & $binarycode & @CRLF & '>Error code: ' & @error & @CRLF) ;### Debug Console

Global $tCodeBuffer = DllStructCreate("byte[" & StringLen($binarycode) / 2 - 1 & "]") ;reserve Memory for opcodes
DllStructSetData($tCodeBuffer, 1, $binarycode)

$ret = DllCallAddress("uint:cdecl", DllStructGetPtr($tCodeBuffer), "ptr", $pPixel, "dword", $tBitmapData.Width * $tBitmapData.Height)
$ret = $ret[0] / ($aDim[0] * $aDim[1])
;$ret = _AssembleIt2("dword", "_CountUniqueColors", "ptr", $pPixel, "dword", $tBitmapData.Width * $tBitmapData.Height)
ConsoleWrite('Anzahl der Farben / Takte pro Pixel = ' & $ret & @CR)
ConsoleWrite('Zeit: ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)

_GDIPlus_BitmapUnlockBits($hImage, $tBitmapData)
$tPixel = 0
$tColors = 0
$tBitmapData = 0
_GDIPlus_BitmapDispose($hImage)
_GDIPlus_Shutdown()
;~ _MemVirtualFree($g_pMem, $g_iMemSize, $MEM_DECOMMIT)
Exit

Alles anzeigen

Und noch die letzte AssembleIt()-Version, bissl finetuning unter der Oberfläche.

Bspw. benötigt man für den Debugger die ORG-Direktive nicht mehr im Code

Assembleit2_64.zip

**Oscar**

Kaum zu glauben, aber ich habe nochmal 300ms bei dem 33MP-Bild rausholen können. Die unten stehende Variante benötigt bei mir jetzt unter 3 Sekunden.

Mein "Trick" ist der, dass ich eine Quick-/Bubblesort-Kombination einsetze (bei wenigen Elementen ist Bubblesort schneller als Quicksort).

Wenn sich in den einzelnen Partitionen von Quicksort weniger als 10 Pixel (experimentell ermittelt) befinden, dann wird der Rest mit Bubblesort sortiert.

Das spart diverse Rekursionen und damit auch Stackzugriffe ein.

AutoIt

#AutoIt3Wrapper_UseX64=n                          ; 32Bit-Modus
#include <GDIPlus.au3>
#include <Memory.au3>
#include "assembleit2_64.au3"

#Region ASM-Code
#cs _CountUniqueColors                            ;
    Use32                                         ; 32Bit Modus!
    mov esi,dword[esp+4]                          ; esi = Pixelstruct-Pointer
    mov edx,dword[esp+8]                          ; edx = right & Pixelcounter
    dec edx                                       ; um eins verringern, weil die Pixelstruct bei 0 beginnt
    push edx                                      ; edx fuer die Zaehlschleife sichern
    xor ecx,ecx                                   ; ecx = left (auf 0 setzen)
    push edx                                      ; right auf den Stack (fuer Quicksort)
    push ecx                                      ; left auf den Stack (fuer Quicksort)
    call quicksort                                ; Quicksort aufrufen (die Pixelstruct sortieren)
    pop edx                                       ; edx wiederherstellen
    mov eax,1                                     ; eax auf 1 setzen (Farbzaehler)
    mov ebx,dword[esi+edx*4]                      ; ebx = Farbwert des letzten Pixels (zum Farbvergleich)
    @count:                                       ; Zaehlschleife fuer die Farben
        dec edx                                   ; Pixelcounter runterzaehlen
        mov ecx,dword[esi+edx*4]                  ; ecx = Farbwert des vorletzten Pixels (zum Farbvergleich)
        cmp ecx,ebx                               ; ecx mit ebx vergleichen
        jae @next                                 ; wenn groesser/gleich, dann mit naechsten Pixel weitermachen
            inc eax                               ; wenn kleiner, dann Farbzaehler um eins erhoehen
            mov ebx,ecx                           ; und die dazugehoerige Farbe merken
        @next:
        cmp edx,0
        jnz @count                                ; wenn noch nicht 0, dann Schleife @count
    mov ecx,eax
    ret                                           ; Pixelcounter an AutoIt zurueckgeben (eax)

    quicksort:                                    ; die Quick-/Bubblesort-Funktion
        mov ecx,dword[esp+4]                      ; ecx = left
        mov edx,dword[esp+8]                      ; edx = right
;~         _ASMDBG_()                                ; debug-gui anzeigen
        cmp ecx,edx                               ; left und right vergleichen
        jae @end                                  ; wenn left >= right, dann Funktion beenden
            mov eax,edx
            sub eax,ecx                           ; right - left
            cmp eax,10                            ; mehr als 10 Pixel?
            ja @quick                             ; wenn ja, dann Quicksort
                                                  ; Nein, dann Bubblesort
                mov eax,ecx                       ; eax = loopleft
                @loop1:                           ; aeussere Schleife vorwaerts
                    mov edi,dword[esi+eax*4]      ; edi = Pixel[loopleft]
                    mov ebx,edx                   ; ebx = loopright
                    @loop2:                       ; innere Schleife rueckwaerts
                        cmp edi,dword[esi+ebx*4]     ; mit Pixel[loopright] vergleichen
                        jbe @f                       ; kleiner/gleich, dann weiter
                            push edi                 ; Pixel[loopleft] sichern
                            mov edi,dword[esi+ebx*4] ; Pixel[loopright] holen
                            mov dword[esi+eax*4],edi ; nach Pixel[loopleft] schreiben
                            pop edi                  ; Pixel[loopleft] wiederherstellen
                            mov dword[esi+ebx*4],edi ; nach Pixel[loopright] schreiben
                            mov edi,dword[esi+eax*4] ; edi = Pixel[loopleft]
                        @@:
                        dec ebx                   ; loopright--
                        cmp ebx,eax               ; loopright mit loopleft vergleichen
                        ja @loop2                 ; wenn loopright > loopleft, dann @loop2
                    inc eax                       ; loopleft++
                    cmp eax,edx                   ; loopleft mit right (edx) vergleichen
                    jb @loop1                     ; wenn loopleft < right (edx), dann @loop1
                ret 8                             ; Bubblesort beendet, Funktion verlassen
            @quick:                               ; hier beginnt der Quicksort-Bereich
            push edx                              ; edx auf den Stack (fuer Partition)
            push ecx                              ; ecx auf den Stack (fuer Partition)
            call partition                        ; Partition aufrufen
            pop ecx                               ; ecx wiederherstellen
            pop edx                               ; edx wiederherstellen
            push ebx                              ; ebx sichern
            push edx                              ; edx sichern
            push ecx                              ; ecx sichern
            push ebx                              ; ebx auf den Stack (right fuer Quicksort)
            push ecx                              ; ecx auf den Stack (left fuer Quicksort)
            call quicksort                        ; Quicksort aufrufen (rekursiv)
            pop ecx                               ; ecx wiederherstellen
            pop edx                               ; edx wiederherstellen
            pop ebx                               ; ebx wiederherstellen
            inc ebx                               ; ebx++
            push edx                              ; edx auf den Stack (right fuer Quicksort)
            push ebx                              ; ebx auf den Stack (left fuer Quicksort)
            call quicksort                        ; Quicksort aufrufen (rekursiv)
        @end:
        ret 8

    partition:
        mov ecx,dword[esp+4]                      ; ecx = left
        mov edx,dword[esp+8]                      ; edx = right
        mov edi,dword[esi+ecx*4]                  ; edi = Pivotwert = Pixel[left]
        mov eax,ecx
        dec eax                                   ; eax = left - 1
        mov ebx,edx
        inc ebx                                   ; ebx = right + 1
        @loop:                                    ; Hauptschleife
            @left:                                ; Schleife fuer die linke Seite
                inc eax                           ; left++
                cmp dword[esi+eax*4],edi          ; Vergleich mit Pivotwert
                jb @left                          ; wenn kleiner, dann Schleife @left
            @right:                               ; Schleife fuer die rechte Seite
                dec ebx                           ; right--
                cmp dword[esi+ebx*4],edi          ; Vergleich mit Pivotwert
                ja @right                         ; wenn groesser, dann Schleife @right
            cmp eax,ebx                           ; Vergleich left und right
            jae @return                           ; wenn groesser/gleich, dann @return
            mov ecx,dword[esi+eax*4]              ; Pixel[left] gegen Pixel[right] austauschen
            mov edx,dword[esi+ebx*4]
            mov dword[esi+eax*4],edx
            mov dword[esi+ebx*4],ecx
            jmp @loop                             ; und mit @loop fortfahren
        @return:
        ret                                       ; right zurueckgeben (ebx)
#ce
#EndRegion ASM-Code

;~ $binarycode = _AssembleIt2("retbinary", "_CountUniqueColors") ;gibt nur den assemblierten code zurück
;~ ConsoleWrite('@@ Debug(' & @ScriptLineNumber & ') : $binarycode = ' & ($binarycode) & @CRLF & '>Error code: ' & @error & @CRLF) ;### Debug Console
;~ Exit
Global $g_pMem, $g_iMemSize, $bCode, $tCodeBuffer, $hImage, $iW, $iH, $iTimer, $tBitmapData, $pScan0, $tPixel, $pPixel, $tColors, $pColors, $ret
;~ $bCode = "0x8B7424048B5424084A5231C95251E81C0000005AB8010000008B1C964A8B0C9639D973034089CB83FA0075F089C1C38B4C24048B54240839D1734E89D029C883F80A772789C88B3C8689D33B3C9E760E578B3C9E893C865F893C9E8B3C864B39C377E84039D072DEC208005251E81A000000595A5352515351E8B1FFFFFF595A5B435253E8A6FFFFFFC208008B4C24048B5424088B3C8E89C84889D34340393C8672FA4B393C9E77FA39D8730E8B0C868B149E891486890C9EEBE2C3"
;~ $tCodeBuffer = _dllstructcreate64_("byte[" & StringLen($bCode) / 2 - 1 & "]") ;reserve Memory for opcodes
;~ DllStructSetData($tCodeBuffer, 1, $bCode)

_GDIPlus_Startup()

$hImage = _GDIPlus_BitmapCreateFromFile(@ScriptDir & '\test_g.jpg')
;~ $hImage = _GDIPlus_BitmapCreateFromFile(@ScriptDir & '\palette.png')
;~ $hImage = _GDIPlus_BitmapCreateFromFile(@ScriptDir & '\test.png')

$aDim =  _GDIPlus_ImageGetDimension($hImage)
ConsoleWrite(StringFormat('_GetUniqueColors (ASM)\n%d x %d = %s px\n', $aDim[0], $aDim[1], $aDim[0] * $aDim[1]))
$iTimer = TimerInit()

$tBitmapData = _GDIPlus_BitmapLockBits($hImage, 0, 0, $aDim[0], $aDim[1], BitOR($GDIP_ILMREAD, $GDIP_ILMWRITE), $GDIP_PXF32ARGB)
ConsoleWrite('Zeit (BitmapLockBits): ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)

$tPixel = DllStructCreate('dword[' & $tBitmapData.Width * $tBitmapData.Height & '];', $tBitmapData.Scan0) ; erstelle Pixelstruct (dword = 32 Bit pro Pixel)
$pPixel = DllStructGetPtr($tPixel)
ConsoleWrite('Zeit (Pixelstruct): ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)

;~ $ret = DllCallAddress("uint:cdecl", DllStructGetPtr($tCodeBuffer), "ptr", $pPixel, "dword", $tBitmapData.Width * $tBitmapData.Height)
;~ $ret = $ret[0]
$ret = _AssembleIt2("dword", "_CountUniqueColors", "ptr", $pPixel, "dword", $tBitmapData.Width * $tBitmapData.Height)
ConsoleWrite('Anzahl der Farben = ' & $ret & @CR)
ConsoleWrite('Zeit: ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)
_GDIPlus_BitmapUnlockBits($hImage, $tBitmapData)
$tPixel = 0
$tColors = 0
$tBitmapData = 0
_GDIPlus_BitmapDispose($hImage)
_GDIPlus_Shutdown()
;~ _MemVirtualFree($g_pMem, $g_iMemSize, $MEM_DECOMMIT)
Exit

Func _dllstructcreate64_($struct) ;align auf 16-byte adresse
    Local $temp = DllStructCreate($struct)
    $g_iMemSize = DllStructGetSize($temp) + 64
    Local $ptr = DllStructGetPtr($struct)
    Local $a1 = Mod(Number($ptr), 64)
    Local $temp = 0
    $g_pMem = _MemVirtualAlloc($ptr + $a1, $g_iMemSize, $MEM_COMMIT, $PAGE_EXECUTE_READWRITE)
    Local $a2 = Mod(Number($g_pMem), 64) ;rest div 16 adresse = offset
    $sstruct = DllStructCreate($struct, (Number($g_pMem) - $a2 + 64))
    Return $sstruct ;auf 16 alingned pointer
EndFunc   ;==>_dllstructcreate64_

Alles anzeigen

**chesstiger**

Ich glaube, das kann man z.B. mit RadixSort noch schneller lösen. RadixSort hat (bei bekannter Schlüssellänge, bei uns 32 bit) eine lineare Laufzeit, also O(l*n), nicht O(n*log(n)) wie QuickSort. Ich bastel nachher mal was in C...

**AspirinJunkie**

Zitat von Oscar

Mein "Trick" ist der, dass ich eine Quick-/Bubblesort-Kombination einsetze (bei wenigen Elementen ist Bubblesort schneller als Quicksort).

Wirklich fix für kleine Größen ist Insertion-Sort. Nutze ich z. B. in meiner _ArraySortFlexible.

Weiterhin kannst du die Wahl des Pivot-Elementes verbessern - z.B. per Median of Three.

Ein fixer Partitionierungsalgorithmus (ich vermute du nimmst den von Hoare?) wie z.B. Introselect oder Floyd-Rivest wäre der nächste Schritt.

Weitere Optimierungen wäre eine Implementierung eines Dual-Pivot Quicksort (also das Array dritteln statt halbieren).

Aber warum sich das alles antun wenn es sowas bereits fertig gibt (und was dann gleich problemlos für 32 Bit und 64 Bit)?

Hab meine DLLs daher mal um Quicksort-Varianten erweitert. Einmal Single-Thread, einmal Multi-Thread.

Für Chesstiger hab ich auch mal zwei Radix-Sort-Varianten mit eingebaut.

Liegt als Zip-Datei im Anhang.

Ergebnis bei mir: Für 32 Bit Bilder scheint die Multi-Thread-Quicksort-Variante die erste Wahl zu sein, für 24-Bit-Bilder die Single-Thread-Array-Variante.

**UEZ**

Hier meine Resultate von AspirinJunkie 's Version (#86)

Code

Multi-Thread-RadixSort-Version:
          Zeitbedarf:  1165.73 ms
       Anzahl Farben:  33177600

Multi-Thread-RadixSort-Version 2:
          Zeitbedarf:   725.96 ms
       Anzahl Farben:  33177600

Single-Thread-Quicksort-Version:
          Zeitbedarf:   663.56 ms
       Anzahl Farben:  33177600

Multi-Thread-Quicksort-Version:
          Zeitbedarf:   406.47 ms
       Anzahl Farben:  33177600

Single-Thread-Array-Version:
          Zeitbedarf:   148.16 ms
       Anzahl Farben:  16777216

Multi-Thread-Array-Version:
          Zeitbedarf:   540.68 ms
       Anzahl Farben:  16777216

Single-Thread-Set-Version:
          Zeitbedarf:  21179.23 ms
       Anzahl Farben:  33177600

Multi-Thread-Set-Version:
          Zeitbedarf:  37024.35 ms
       Anzahl Farben:  33177600

Alles anzeigen

Als Testbild habe ich Oscar 's generiertes riesen Bild genommen.

Die letzten zwei Funktionen sind extrem langsam...

**Oscar**

Zitat von AspirinJunkie

Ergebnis bei mir: Für 32 Bit Bilder scheint die Multi-Thread-Quicksort-Variante die erste Wahl zu sein, für 24-Bit-Bilder die Single-Thread-Array-Variante.

Kann ich bestätigen! Das ist auch bei mir die schnellste Variante.

Wobei man bei Deinem Script nur die zu testende Variante auskommentieren darf. Alle hintereinander durchlaufen lassen verfälscht das Ergebnis, weil dann _GDIPlus_BitmapLockBits mit den gecachten Daten arbeitet.

Meine 32-Bit ASM-Version ist immerhin schneller als Deine 32-Bit-Single-Thread-Quicksort-Version. Deine 64-Bit-Version zieht dann gleich. Von daher bin ich mit meiner ASM-Version schon sehr zufrieden.

Die 64-Bit-Multi-Thread-Quicksort-Version ist aber drei Mal so schnell (auf meinem Quadcore-Rechner), wie meine Version.

Und außerdem hat die ASM-Version den Vorteil, dass man sie einfacher in das AutoIt-Script packen kann und von der Größe (ASM-Version = 188 Byte) wollen wir erst gar nicht reden.

**Andy**

Hallo Oscar,

wenn du Registerpressure hast (und welcher ASM-Programmierer hat das nicht^^) dann kannst du sehr einfach auch zum zwischenspeichern von Werten/Registerinhalten auf die XMM-Register zugreifen

Code

;~                             push edi                 ; Pixel[loopleft] sichern
                            movd xmm0,dword[esi+ebx*4] ; Pixel[loopright] holen
                            movd dword[esi+eax*4],xmm0 ; nach Pixel[loopleft] schreiben
;~                             pop edi                  ; Pixel[loopleft] wiederherstellen

Bringt im vorliegenden Fall nicht viel, aber einmal PUSH/POP ist eingespart. Im Debugger werden diese 128-Bit Register auch angezeigt incl. aller ihrer sowohl als auch integer oder float (4-Byte) Teile.

Wenn du weißt, was du tust, kannst du auch noch das EBP-Register, also den Basepointer in deinem Code verwenden. Am Anfang des Programms pushen und am Ende wieder restaurieren, dort steht nach einem Call die Rücksprungadresse fürs "Return" :o).

In den allermeisten Programmen ändert sich während der Laufzeit EBP nicht....wie gesagt, man muss wissen, was man da tut....

Du kannst deinen ASM-code übrigens sehr einfach auch in AutoIt multithreadingfähig machen. Für deinen Algorithmus ist das ziemlich ungünstig, aber das am Anfang genannte Verfahren, also Farben an ihrer entsprechenden Adresse speichern und dann die Anzahl der "gesetzten" Adressen zur Summe der Farben zählen schreit geradezu nach Multithreading.

Hier ein Beispiel <-das ist ein Link

Mich interessiert die Variante, die Pixelfarbe als Adresse in einem Bit statt in einem Byte (wie von Mars gezeigt) abzuspeichern und dann die Bits als Summe der Anzahl der Farben zu zählen. Selbst für den vollen 32-Bit Farbraum, also incl. Alphakanal wären das gerade mal 500MB Speicher ( 255^4 Farben / 8 Bit pro byte). Vielleicht habe ich dafür ja bissl Zeit, dann sollte aber auch die Multithreadingvariante kommen :o)

**Oscar**

Zitat von Andy

Bringt im vorliegenden Fall nicht viel, aber einmal PUSH/POP ist eingespart. Im Debugger werden diese 128-Bit Register auch angezeigt incl. aller ihrer sowohl als auch integer oder float (4-Byte) Teile.

Ah, ok!

Dazu muss der Prozessor SSE unterstützen, oder? Die XMM-Register gehören doch zu der SSE-Unterstützung?

Merken: Lieber in ein Register moven, als den Stack zu benutzen.

Zitat von Andy

Du kannst deinen ASM-code übrigens sehr einfach auch in AutoIt multithreadingfähig machen. Für deinen Algorithmus ist das ziemlich ungünstig, aber...

Danke, für das Beispiel!

Damit werde ich mich mal beschäftigen. Es ist zwar ungünstig, dass die Threads von AutoIt aus gestartet werden, aber wenn ich eine Interprozesskommunikation hinbekomme, dann sollte sich das sortieren beschleunigen lassen.

Zitat von Andy

Selbst für den vollen 32-Bit Farbraum, also incl. Alphakanal wären das gerade mal 500MB Speicher

Naja, "gerade mal 500MB"?

Auch wenn die meisten mittlerweile mehrere GB Hauptspeicher besitzen, finde ich die 500MB nur dafür ziemlich übertrieben.

Ich werde mich da eher an der Multi-Thread-Version versuchen. Schon allein, weil mich das Thema mehr anspricht.

**chesstiger**

Andy Die MT-Variante mit bits steht ja irgendwo. Ist aber leider auch langsamer.

Davon ab... Ich habe jetzt auch etwas rumprobiert. Eigentlich sollte RadixSort hier das mit Abstand schnellste sein. Im Durchschnittsfall (ist hier gegeben) hat QuickSort die Komplexitätsklasse O(n*log(n)), wie alle besseren vergleichenden Sortieralgorithmen. RadixSort liegt aber in O(n), ist also linear. Der Zeitbedarf steigt also linear mit jedem neuen zu sortierenden Objekt.

Wobei RadixSort nur effizient ist, wenn die maximale Schlüssellänge eher klein ist. Wenn man das klassischs RadixSort nimmt, wird nach Dezimalstellen sortiert, bei einem Int sind das dann maximal 10 Stellen. Das Problem ist wie gemacht für diesen Sortieralgorithmus. Spätestens bei großen Datenmengen sollte er gewinnen. Tut er aber nicht... Ich hab nur noch nicht raus, warum.

**Oscar**

Zitat von AspirinJunkie

Wirklich fix für kleine Größen ist Insertion-Sort.

Ok, Insertionsort ist tatsächlich schneller als Bubblesort!

Die Kombination "Quick-/Insertionsort" bringt nochmal ca. 300 ms bei dem 33MP-Bild. Jetzt bin ich bei rund 2700 ms (32-Bit Single-Thread).

Ich lasse jetzt Insertionsort ran, sobald weniger als 32 Pixel in einer Partition sind. Das hat sich bei Versuchen als schnellste Variante ergeben.

Hier ist die neue Version:

AutoIt

#AutoIt3Wrapper_UseX64=n                          ; 32Bit-Modus
#include <GDIPlus.au3>
#include <Memory.au3>
#include "assembleit2_64.au3"

#Region ASM-Code
#cs _CountUniqueColors                            ;
    Use32                                         ; 32Bit Modus!
    mov esi,dword[esp+4]                          ; esi = Pixelstruct-Pointer
    mov edx,dword[esp+8]                          ; edx = right & Pixelcounter
;~     _ASMDBG_()                                    ; debug-gui anzeigen
    dec edx                                       ; um eins verringern, weil die Pixelstruct bei 0 beginnt
    push edx                                      ; edx fuer die Zaehlschleife sichern
    xor ecx,ecx                                   ; ecx = left (auf 0 setzen)
    push edx ecx                                  ; right und left auf den Stack (fuer Quicksort)
    call quicksort                                ; Quicksort aufrufen (die Pixelstruct sortieren)
    pop edx                                       ; edx wiederherstellen
    mov eax,1                                     ; eax auf 1 setzen (Farbzaehler)
    mov ebx,dword[esi+edx*4]                      ; ebx = Farbwert des letzten Pixels (zum Farbvergleich)
    @count:                                       ; Zaehlschleife fuer die Farben
        dec edx                                   ; Pixelcounter runterzaehlen
        mov ecx,dword[esi+edx*4]                  ; ecx = Farbwert des vorletzten Pixels (zum Farbvergleich)
        cmp ecx,ebx                               ; ecx mit ebx vergleichen
        jae @next                                 ; wenn groesser/gleich, dann mit naechsten Pixel weitermachen
            inc eax                               ; wenn kleiner, dann Farbzaehler um eins erhoehen
            mov ebx,ecx                           ; und die dazugehoerige Farbe merken
        @next:
        cmp edx,0
        jnz @count                                ; wenn noch nicht 0, dann Schleife @count
    mov ecx,eax
    ret                                           ; Pixelcounter an AutoIt zurueckgeben (eax)

    quicksort:                                    ; die Quick-/Insertionsort-Funktion
        mov ecx,dword[esp+4]                      ; ecx = left
        mov edx,dword[esp+8]                      ; edx = right
        cmp ecx,edx                               ; left und right vergleichen
        jae @end                                  ; wenn left >= right, dann Funktion beenden
            mov eax,edx
            sub eax,ecx                           ; right - left
            cmp eax,32                            ; mehr als 32 Pixel?
            ja @quick                             ; wenn ja, dann Quicksort
                                                  ; Nein, dann Insertionsort
                mov edi,ecx
                inc edi                           ; edi = $i = left + 1
                @fori:
                    mov ebx,dword[esi+edi*4]      ; ebx = Pixel[Insert]
                    mov eax,edi                   ; eax = $j = Insertpos
                    @forj:                        ; Einfuegeschleife
                        cmp eax,ecx               ; Anfang erreicht?
                        jbe @break1               ; Ja, dann @break1
                        dec eax                   ; j--
                        cmp dword[esi+eax*4],ebx  ; Pixel[j-1] < Pixel[Insert]
                        jbe @break2               ; Ja, dann @break2
                        movd xmm0,dword[esi+eax*4]; Pixel[j-1] holen
                        inc eax                   ; j++
                        movd dword[esi+eax*4],xmm0; als Pixel[j] speichern
                        dec eax                   ; j--
                        jmp @forj                 ; forj fortsetzen
                    @break2:
                        inc eax                   ; j++ (weil oben [j-1])
                    @break1:
                        mov dword[esi+eax*4],ebx  ; Pixel[Insert] nach Pixel[j] speichern
                        inc edi                   ; i++
                        cmp edi,edx               ; i > right
                        jbe @fori                 ; Nein, dann @fori
                ret 8                             ; Insertionsort beendet, Funktion verlassen
            @quick:                               ; hier beginnt der Quicksort-Bereich
            push edx ecx                          ; edx und ecx auf den Stack (fuer Partition)
            call partition                        ; Partition aufrufen
            pop ecx edx                           ; ecx und edx wiederherstellen
            push ebx edx                          ; Register sichern
            push ebx ecx                          ; ebx und ecx auf den Stack (right und left fuer Quicksort)
            call quicksort                        ; Quicksort aufrufen (rekursiv)
            pop edx ebx                           ; Register wiederherstellen
            inc ebx                               ; ebx++
            push edx ebx                          ; edx und ebx auf den Stack (right und left fuer Quicksort)
            call quicksort                        ; Quicksort aufrufen (rekursiv)
        @end:
        ret 8

    partition:
        mov ecx,dword[esp+4]                      ; ecx = left
        mov edx,dword[esp+8]                      ; edx = right
        mov edi,dword[esi+ecx*4]                  ; edi = Pivotwert = Pixel[left]
        mov eax,ecx
        dec eax                                   ; eax = left - 1
        mov ebx,edx
        inc ebx                                   ; ebx = right + 1
        @loop:                                    ; Hauptschleife
            @left:                                ; Schleife fuer die linke Seite
                inc eax                           ; left++
                cmp dword[esi+eax*4],edi          ; Vergleich Pixel[left] mit Pivotwert
                jb @left                          ; wenn kleiner, dann Schleife @left
            @right:                               ; Schleife fuer die rechte Seite
                dec ebx                           ; right--
                cmp dword[esi+ebx*4],edi          ; Vergleich Pixel[right] mit Pivotwert
                ja @right                         ; wenn groesser, dann Schleife @right
            cmp eax,ebx                           ; Vergleich left und right
            jae @return                           ; wenn groesser/gleich, dann @return
            mov ecx,dword[esi+eax*4]              ; Pixel[left] gegen Pixel[right] austauschen
            mov edx,dword[esi+ebx*4]
            mov dword[esi+eax*4],edx
            mov dword[esi+ebx*4],ecx
            jmp @loop                             ; und mit @loop fortfahren
        @return:
        ret                                       ; right zurueckgeben (ebx)
#ce
#EndRegion ASM-Code

;~ $binarycode = _AssembleIt2("retbinary", "_CountUniqueColors") ;gibt nur den assemblierten code zurück
;~ ConsoleWrite('@@ Debug(' & @ScriptLineNumber & ') : $binarycode = ' & ($binarycode) & @CRLF & '>Error code: ' & @error & @CRLF) ;### Debug Console
;~ Exit
Global $g_pMem, $g_iMemSize, $bCode, $tCodeBuffer, $hImage, $iW, $iH, $iTimer, $tBitmapData, $pScan0, $tPixel, $pPixel, $tColors, $pColors, $ret
;~ $bCode = "0x8B7424048B5424084A5231C95251E81C0000005AB8010000008B1C964A8B0C9639D973034089CB83FA0075F089C1C38B4C24048B54240839D1735189D029C883F820772C89CF478B1CBE89F839C8761548391C86760E660F6E048640660F7E048648EBE840891C864739D776DAC208005251E818000000595A53525351E8ADFFFFFF5A5B435253E8A3FFFFFFC208008B4C24048B5424088B3C8E89C84889D34340393C8672FA4B393C9E77FA39D8730E8B0C868B149E891486890C9EEBE2C3"
;~ $tCodeBuffer = _dllstructcreate64_("byte[" & StringLen($bCode) / 2 - 1 & "]") ;reserve Memory for opcodes
;~ DllStructSetData($tCodeBuffer, 1, $bCode)

_GDIPlus_Startup()

;~ $hImage = _GDIPlus_BitmapCreateFromFile(@ScriptDir & '\test_4k.jpg')
;~ $hImage = _GDIPlus_BitmapCreateFromFile(@ScriptDir & '\palette.png')
$hImage = _GDIPlus_BitmapCreateFromFile(@ScriptDir & '\test.png')

$aDim =  _GDIPlus_ImageGetDimension($hImage)
ConsoleWrite(StringFormat('_GetUniqueColors (ASM)\n%d x %d = %s px\n', $aDim[0], $aDim[1], $aDim[0] * $aDim[1]))
$iTimer = TimerInit()

$tBitmapData = _GDIPlus_BitmapLockBits($hImage, 0, 0, $aDim[0], $aDim[1], BitOR($GDIP_ILMREAD, $GDIP_ILMWRITE), $GDIP_PXF32ARGB)
ConsoleWrite('Zeit (BitmapLockBits): ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)

$tPixel = DllStructCreate('dword[' & $tBitmapData.Width * $tBitmapData.Height & '];', $tBitmapData.Scan0) ; erstelle Pixelstruct (dword = 32 Bit pro Pixel)
$pPixel = DllStructGetPtr($tPixel)
ConsoleWrite('Zeit (Pixelstruct): ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)

;~ $ret = DllCallAddress("uint:cdecl", DllStructGetPtr($tCodeBuffer), "ptr", $pPixel, "dword", $tBitmapData.Width * $tBitmapData.Height)
;~ $ret = $ret[0]
$ret = _AssembleIt2("dword", "_CountUniqueColors", "ptr", $pPixel, "dword", $tBitmapData.Width * $tBitmapData.Height)
ConsoleWrite('Anzahl der Farben = ' & $ret & @CR)
ConsoleWrite('Zeit: ' & Round(TimerDiff($iTimer), 3) & ' ms' & @CR)

_GDIPlus_BitmapUnlockBits($hImage, $tBitmapData)
$tPixel = 0
$tColors = 0
$tBitmapData = 0
_GDIPlus_BitmapDispose($hImage)
_GDIPlus_Shutdown()
;~ _MemVirtualFree($g_pMem, $g_iMemSize, $MEM_DECOMMIT)
Exit

Func _dllstructcreate64_($struct) ;align auf 16-byte adresse
    Local $temp = DllStructCreate($struct)
    $g_iMemSize = DllStructGetSize($temp) + 64
    Local $ptr = DllStructGetPtr($struct)
    Local $a1 = Mod(Number($ptr), 64)
    Local $temp = 0
    $g_pMem = _MemVirtualAlloc($ptr + $a1, $g_iMemSize, $MEM_COMMIT, $PAGE_EXECUTE_READWRITE)
    Local $a2 = Mod(Number($g_pMem), 64) ;rest div 16 adresse = offset
    $sstruct = DllStructCreate($struct, (Number($g_pMem) - $a2 + 64))
    Return $sstruct ;auf 16 alingned pointer
EndFunc   ;==>_dllstructcreate64_

Alles anzeigen

**Mars**

Das hier ist der beste Thread seit langem. So viel Elan für etwas das bereits auf 5 Arten erfolgreich gelöst wurde

**Oscar**

Zitat von Mars

So viel Elan für etwas das bereits auf 5 Arten erfolgreich gelöst wurde

Vom Prinzip her ja, aber man kann das ja noch verbessern.

Und so nebenbei lerne ich noch, wie man AutoIt mit Assembler-Routinen verbessern kann.

Zum Beispiel: Ein _ArraySort, mit einem Array das 1Mio Elemente (DWORDs) enthält, dauert auf meinem Rechner fast 40 Sekunden. Das gleiche Array mit Assembler sortiert dauert 60 Millisekunden. Selbst wenn man noch Array2Struct und Struct2Array (jeweils ca. 1.2s) mitrechnet, ist das mit unter 3 Sekunden noch sehr schnell.

**UEZ**

Zitat von chesstiger

Andy Die MT-Variante mit bits steht ja irgendwo. Ist aber leider auch langsamer.

Davon ab... Ich habe jetzt auch etwas rumprobiert. Eigentlich sollte RadixSort hier das mit Abstand schnellste sein. Im Durchschnittsfall (ist hier gegeben) hat QuickSort die Komplexitätsklasse O(n*log(n)), wie alle besseren vergleichenden Sortieralgorithmen. RadixSort liegt aber in O(n), ist also linear. Der Zeitbedarf steigt also linear mit jedem neuen zu sortierenden Objekt.

Wobei RadixSort nur effizient ist, wenn die maximale Schlüssellänge eher klein ist. Wenn man das klassischs RadixSort nimmt, wird nach Dezimalstellen sortiert, bei einem Int sind das dann maximal 10 Stellen. Das Problem ist wie gemacht für diesen Sortieralgorithmus. Spätestens bei großen Datenmengen sollte er gewinnen. Tut er aber nicht... Ich hab nur noch nicht raus, warum.

Bei mir kackt Radix Sort bei großen Bildern unter FreeBasic ab, da anscheinend FB den benutzten Speicher nicht richtig verwalten kann (Speicherschutzverletzung)!

Ein 2D Array mit aBucket[w*h][10] und rekursivem Aufruf macht Probleme, aber bei kleinen Bildern ist Quick Sort immer noch schneller.

Wer den FB Code testen möchte:

VB.Net

'coded by UEZ build 2017-12-15
#define WIN_INCLUDEALL
#include Once "windows.bi"
#Include Once "win/gdiplus.bi"
#include Once "string.bi"

Using GDIPLUS

Declare Function FileOpenDialog (Byref sTitle As String, Byref sDir As String = CurDir, sFilter As String = !"All Files (*.*)" + Chr(0) + "*.*" + Chr(0, 0)) As String
Declare Function _GDIPlus_ImageCountColors32(himage as any Ptr) as uInteger
Declare Function _GDIPlus_ImageCountColors24(himage as any Ptr) as UInteger
Declare function _GDIPlus_ImageCountColorsAccurat(himage as any Ptr) as uInteger
Declare function _GDIPlus_ImageCountColors24ASM(himage as any Ptr) as uInteger
Declare Function _GDIPlus_ImageGetPixelFormat(hImage as any ptr) as UInteger
Declare Sub Quicksort(Array() As uinteger, iStart As uinteger, iEnd As uinteger)
Declare Sub RadixSortUInt32(a() as UInteger, pa as UByte = 1)

Function _GDIPlus_ImageCountColors32(himage as any Ptr) as uInteger 'slower variant but full 32-bit support
   Dim As Single iW, iH, iPixel, iRowOffset
    GdipGetImageDimension(hImage, @iW, @iH)
   Dim As BitmapData tBitmapData
   Dim As Rect tRect = Type(0, 0, iW - 1, iH - 1)
   Dim as uinteger aColors(0 to iW * iH), c = 0, iX, iY
   ? "Image dimension: " & iW & "x" & iH
   ? "Counting all 32-bit colors"
   _GDIPlus_ImageGetPixelFormat(hImage)
   GdipBitmapLockBits(hImage, Cast(Any Ptr, @tRect), ImageLockModeRead, PixelFormat32bppARGB, @tBitmapData)
   
   For iY = 0 To iH - 1
      iRowOffset = iY * iW
      For iX = 0 To iW - 1 
           aColors(c) = Cast(uInteger Ptr, tBitmapData.Scan0)[iRowOffset + iX]
           c += 1
      Next
   Next
   
   GdipBitmapUnlockBits(hImage, @tBitmapData)
   
   ? "Sorting color array"
   RadixSortUInt32(aColors()) 
   ? "Counting unique colors"
   c = 0
   For iY = 0 to Ubound(aColors) - 2
      If aColors(iY) < aColors(iY + 1) Then c += 1
   Next

   Return c
End Function

Function _GDIPlus_ImageCountColors24(himage as any Ptr) as uInteger
   Dim As Single iW, iH, iPixel, iRowOffset
    GdipGetImageDimension(hImage, @iW, @iH)
   Dim As BitmapData tBitmapData
   Dim As Rect tRect = Type(0, 0, iW - 1, iH - 1)
   Dim as uInteger c = 0, iX, iY
   Dim as UlongInt iColor
   Dim as Ubyte aColors()
   Redim aColors(0 to 256^3 + 1) 
   ? "Image dimension: " & iW & "x" & iH
   ? "Counting all 24-bit colors"
   
   GdipBitmapLockBits(hImage, Cast(Any Ptr, @tRect), ImageLockModeRead, PixelFormat32bppRGB, @tBitmapData)
   
   For iY = 0 To iH - 1
      iRowOffset = iY * iW
      For iX = 0 To iW - 1 
            iColor = Cast(uInteger Ptr, tBitmapData.Scan0)[iRowOffset + iX] and &h00FFFFFF 'read and make color value 24-bit
            If aColors(iColor) = 0 Then
               c += 1
               aColors(iColor) = 1
            Endif
      Next
   Next
   
   GdipBitmapUnlockBits(hImage, @tBitmapData)
   
   Return c
End Function

function _GDIPlus_ImageCountColorsAccurat(himage as any Ptr) as uInteger 'very very slow!
   Dim As Single iW, iH, iPixel, iRowOffset
    GdipGetImageDimension(hImage, @iW, @iH)
   Dim As BitmapData tBitmapData
   Dim As Rect tRect = Type(0, 0, iW - 1, iH - 1)
   Dim as uinteger aColors(0 to iW * iH), iColor, c = 0, p = 0, iX, iY, iYY
   Dim as Boolean bFound
   ? "Image dimension: " & iW & "x" & iH
   ? "Counting all 32-bit colors"
   _GDIPlus_ImageGetPixelFormat(hImage)
   GdipBitmapLockBits(hImage, Cast(Any Ptr, @tRect), ImageLockModeRead, PixelFormat32bppARGB, @tBitmapData)
   
   For iY = 0 To iH - 1
      iRowOffset = iY * iW
      For iX = 0 To iW - 1 
            iColor = Cast(uInteger Ptr, tBitmapData.Scan0)[iRowOffset + iX]
            bFound = False
            For iYY = 0 to p
               If iColor = aColors(iYY) Then
                  bFound = true
                  Exit For
               End If
            Next
            If Not bFound then
               aColors(p) = iColor
               p += 1
               c += 1
            End if
      Next
   Next

   GdipBitmapUnlockBits(hImage, @tBitmapData)
   
   Return c   
End Function

Function _GDIPlus_ImageCountColors24ASM(himage as any Ptr) as uInteger
   Dim As Single iW, iH, iPixel
    GdipGetImageDimension(hImage, @iW, @iH)
   Dim As BitmapData tBitmapData
   Dim As Rect tRect = Type(0, 0, iW - 1, iH - 1)
   Dim as uInteger c = 0, iX, iY, iPixels = iW * iH
   Dim as Byte aColors()
   Redim aColors(0 to 256^3 + 1) 
   
   ? "Image dimension: " & iW & "x" & iH
   ? "Counting all 24-bit colors"
   
   GdipBitmapLockBits(hImage, Cast(Any Ptr, @tRect), ImageLockModeRead, PixelFormat32bppARGB, @tBitmapData)
   
   Dim As Dword Ptr pBmp = Cast(Any Ptr, tBitmapData.scan0)
   Dim As Byte Ptr pColors = @aColors(0)

   Asm
      mov esi, [pBmp]
      mov ecx, [iPixels]
      mov edi, [pColors]
      Xor eax, eax
      _Pixel_Count:
         mov ebx, [esi]
         and ebx, &hFFFFFF
         cmp Byte Ptr [edi + ebx], 1
         je _Next
         add eax, 1
         mov Byte Ptr [edi + ebx], 1
      _Next:
         add esi, 4
         sub ecx, 1
         jnz _Pixel_Count
      mov [c], eax  
   End Asm

   GdipBitmapUnlockBits(hImage, @tBitmapData)
   Return c
End Function

Function _GDIPlus_ImageGetPixelFormat(hImage as any ptr) as UInteger
   Dim as UInteger iFormat
   GdipGetImagePixelFormat(hImage, @iFormat)
   Return iFormat
End Function

'https://en.wikibooks.org/wiki/Algorithm_Implementation/Sorting/Quicksort
Sub Quicksort(Array() As uinteger, iStart As uinteger, iEnd As uinteger)
   Dim As uInteger i = iStart, j = iEnd, iPivot = Array((i + j) Shr 1)
   While i <= j
      While Array(i) > iPivot
         i += 1
      Wend
      While Array(j) < iPivot 
         j -= 1
      Wend
      If i <= j Then 
         Swap Array(i), Array(j)
         i += 1 
         j -= 1
      End if
   Wend
   If j > iStart Then Quicksort(Array(), iStart, j)
   If i < iEnd Then Quicksort(Array(), i, iEnd)
End Sub

Sub RadixSortUInt32(a() as UInteger, pa as UByte = 1)
   Dim as UInteger aBucket(0 to Ubound(a), 0 to 10), i, x, y
   Dim as UInteger aBucketPos(0 to 10)
   DIm as UInteger p

   For x = 0 to Ubound(a) - 1
      p = CUbyte((a(x) \ 10 ^ (pa - 1)) Mod 10)
      aBucket(aBucketPos(p), p) = a(x) 'hier stürzt es bei großen Bildern ab
      aBucketPos(p) += 1
   Next

   i = 0
   For x = 0 to Ubound(aBucketPos)
      If aBucketPos(x) > 0 Then
         For y = 0 to aBucketPos(x) - 1
            a(i) = aBucket(y, x)
            i += 1
         Next
      End If
   Next
  
   If pa < 10 Then
      ReDim aBucket(1, 1)
      RadixSortUInt32(a(), pa + 1)
   End If
End Sub

'code by KristopherWindsor -> https://www.freebasic.net/forum/viewtopic.php?f=7&t=10981&hilit=FileOpenDialog
Function FileOpenDialog (Byref sTitle As String, Byref sDir As String = CurDir, sFilter As String = !"All Files (*.*)" + Chr(0) + "*.*" + Chr(0, 0)) As String
  Dim oFilename As OPENFILENAME
  Dim sFilename As Zstring * (MAX_PATH + 1)
  Dim Title As Zstring * 32 => sTitle
  Dim sInitialDir As Zstring * 256 => sDir
  
  With oFilename
    .lStructSize       = SizeOf(OPENFILENAME)
    .hwndOwner         = NULL
    .hInstance         = GetModuleHandle(NULL)
                        '"All Files, (*.*)"
                        '"*.*"
                        '"Bas Files, (*.BAS)"
                        '"*.bas"
    '.lpstrFilter       = Strptr(!"All Files, (*.*)\0*.*\0Bas Files, (*.BAS)\0*.bas\0\0")
    .lpstrFilter       = Strptr(sFilter)
    .lpstrCustomFilter = NULL
    .nMaxCustFilter    = 0
    .nFilterIndex      = 1
    .lpstrFile         = @sFilename
    .nMaxFile          = SizeOf(sFilename)
    .lpstrFileTitle    = NULL
    .nMaxFileTitle     = 0
    .lpstrInitialDir   = @sInitialDir
    .lpstrTitle        = @Title
    .Flags             = OFN_EXPLORER Or OFN_FILEMUSTEXIST Or OFN_PATHMUSTEXIST
    .nFileOffset       = 0
    .nFileExtension    = 0
    .lpstrDefExt       = NULL
    .lCustData         = 0
    .lpfnHook          = NULL
    .lpTemplateName    = NULL
  End With

  If (GetOpenFileName(@oFilename) = FALSE) Then Return ""
  Return sFilename
End Function

Dim GDIPlusStartupInput As GDIPLUSSTARTUPINPUT 
Dim As ULONG_PTR GDIPlusToken 

GDIPlusStartupInput.GdiplusVersion = 1 
If (GdiplusStartup(@GDIPlusToken, @GDIPlusStartupInput, NULL) <> 0) Then 
   End 'FAILED TO INIT GDI+!
EndIf
   
Dim as String sImgFile

sImgFile = FileOpenDialog("Select an image file to load...", "", "Image Files (*.bmp;*.jpg;*.png;*.gif)" + Chr(0) + "*.bmp;*.jpg;*.png;*.gif" + Chr(0))
? "Loading image"
Dim As Integer iStatus
Dim as any Ptr hImage
iStatus = GdipLoadImageFromFile(sImgFile, @hImage)
If iStatus <> 0 Then 
   GdiplusShutdown(GDIPlusToken)
   End
End if

Dim as Double fTimer 
fTimer = Timer
If (_GDIPlus_ImageGetPixelFormat(hImage) and PixelFormatAlpha) Then 'check if image has alpha channel
      ? "Unique color count: " & _GDIPlus_ImageCountColors32(hImage)
   Else
      ? "Unique color count: " & _GDIPlus_ImageCountColors24ASM(hImage)
End If
? "Time: " & (Timer - fTimer) * 1000 & " ms"

GdipDisposeImage(hImage)
GdiplusShutdown(GDIPlusToken)
Sleep

Alles anzeigen

Insertion Sort kann ich auch mal testen...

Edit: Insertion Sort ist absolut langsam! Da ist Radix Sort um ein vielfaches schneller!

**Andy**

Hi zusammen,

wenn ich Multithreading/tasking höre, schießt mir sofort OpenCL in den Kopf.

Nach bissl googeln habe ich einige auf jedem System und Programmiersprache verwendbare *.cl-Dateien gefunden, die ich gerne in AutoIt implementiert hätte. Leider sind diese Umsetzungen, bspw. Radix-Sort (für mich) viel zu kompliziert.

Bei den Intel-Beispielen habe ich einen sehr simplen Bitonic-Sort gefunden, der den SIMD-Ansatz nutzt, also 4x32Bit-UINT´s "auf einen Rutsch" umsortiert. Auf einer Grafikkarte ist kein Geschwindigkeitsgewinn durch SIMD zu erreichen, auf der CPU hilft SIMD massiv durch Einsatz der SSE-Register.

Ich bin mir nicht ganz sicher wieso das Script auf der Intel-CPU (i7-7500U Kaby-Lake im Laptop) abstürzt, auf dem gleichen Laptop aber die im Prozessor integrierte(n) GPU(s) ( Gforce GTX 950M und Intel HD Graphics 620) einwandfreie und auch sehr schnelle Ergebnisse bringen.

Ich werde dem auf anderen Rechnern mal nachgehen und dann Ergebnisse posten.

Zur Not übertrage ich die Sortierroutine nach ASM (exzessiver Gebrauch von SSE ) , was auf der CPU mindestens Faktor 3 (im Vergleich zur 32-Bit "normal"-Programmierung) in der Geschwindigkeit bringen sollte.

Aber da meiner Erfahrung nach auch die schnellste CPU nicht mal ansatzweise gegen eine (billigst-) GPU anstinken kann, werde ich ich das als letzte Möglichkeit in Betracht ziehen.

Zitat von Mars

Das hier ist der beste Thread seit langem. So viel Elan für etwas das bereits auf 5 Arten erfolgreich gelöst wurde

...to be continued...

**AspirinJunkie**

Zitat von Andy

wenn ich Multithreading/tasking höre, schießt mir sofort OpenCL in den Kopf.

Mir auch. Gerade wenn ich Bilddateien höre.
Hätte ich auch schon längst was gebastelt - mir ist nur halt die Erstkonfiguration zu aufwendig.
Wenn ich aber dennoch mal unverhofft Zeit und langeweile hab bastel ich auch damit mal was - versprochen.

Zitat von Andy

Auf einer Grafikkarte ist kein Geschwindigkeitsgewinn durch SIMD zu erreichen,

Ist ne Grafikkarte nicht sogar eher ein Massive-SIMD-Device?

**Andy**

Zitat von AspirinJunkie

Mir auch. Gerade wenn ich Bilddateien höre.
Hätte ich auch schon längst was gebastelt - mir ist nur halt die Erstkonfiguration zu aufwendig.
Wenn ich aber dennoch mal unverhofft Zeit und langeweile hab bastel ich auch damit mal was - versprochen.

Ist ne Grafikkarte nicht sogar eher ein Massive-SIMD-Device?

Auf einer Grafikkarte sind viele sog. Compute-Units CU verbaut,jedes hat einen eigenen Speicherbereich.

Der OpenCL-Kernel, der übrigens Sprachtechnisch auf simples C (ohne ++ -gedöns) gründet, wird dabei auf ALLE die Compute-Units verteilt und dort SIMULTAN abgearbeitet.

Dabei uss man sich idR nicht um alles das kümmern, was einem als Multithread/task-Programmierer das Leben schwer macht. Viele Fehler/Schwierigkeiten entstehen dadurch, dass die Programmierer sich viel zu viele Gedanken machen.

OpenCL nimmt einem die Komplexität meistens völlig ab, daher bekommen das sogar Leute wie ich es auf die Reihe, extrem schnellen Code zu produzieren.

Bzgl. Massive-SIMD-Device....wenn du es so nennen willst, dann ja :o)

Du musst dir aber im Gegenteil zur "reinen" CPU-Programmierung keinen Kopf machen, ob du nun SSE- oder AVX- Befehle einsetzt. Auf der Grafikkarte hast du reichlich Workunits, auf der CPU MUSST du wenn du SIMD nutzen willst, dieses auch explizit im Kernel so programmieren.

Der OpenCL-Compiler macht aus dem Code für die GPU ein "Massive Multithreading" genau wie für die CPU.

Da auf der CPU allerdings nur 4-6 Cores (wegen mir je auch noch mit bis zu 2 Threads) statt hunderte bei der GPU zur Verfügung stehen, macht es bei der CPU Sinn, die SSE-Befehle zu nutzen, welche bspw. 4 UINT oder FLOAT gleichzeitig(!) berechnen können.

OpenCL verteilt den (identischen) Code also sowohl auf GPU als auch auf die CPU, allerdings profitiert die CPU von explizitem SSE/SIMD-Code stärker!

In den OpenCL-Threads hier im Forum habe ich sowohl/als auch-*.CL Kernel vorgestellt.

Btw. sollte ich dort auch mal meine neuesten Versionen updaten da hat sich einiges getan......

**Andy**

Hi zusammen,

anbei Beispiel(e) für OpenCL unter AutoIt (funktionieren unter 32 und 64Bit-Systemen!) , u.a. auch ein BitonicSort, mit dem ich Oscars Beispieldateigröße (7680 * 4320Pixel) nach Farben sortiere.

Die Beispiele laufen bei mir auf diversen Platformen, einmal Laptop AMD A6-3400M APU mit 2 Grafik"karten" und auf einem Intel i7-7500U CPU mit HD620 und zusätzlicher GeForce GTX950M.

Leider habe ich zzt keinen Zugriff auf einen "richtigen" Rechner, aber dafür sind ja hier Leute mit entsprechender Hardware^^

IdR. werden die OpenCL-Treiber mit den Grafikkartentreibern mitgeliefert, ansonsten findet jeder auf Anhieb bei Tante Google aktuelle Treiber für sein System. Bitte bei 32Bit-Systemen nicht vergessen in den AutoIt-Scripten #AutoIt3Wrapper_UseX64=n zu setzen.

Wer mehrere Platforms/Devices hat, bekommt ein Auswahlmenü präsentiert, bei dem man das Device auswählen kann. Fenster schließen und es geht los....

Natürlich kann man auch explizit ein Device (GPU oder CPU) auswählen, sogar mehrere Devices kann man gleichzeitig(!) rechnen lassen, allerdings ist der Aufwand meist die Mühe nicht wert...

Bei ggf. auftretenden Bugs/Fehlern bitte im Script den Schalter $CL_DEBUGFLAG = 1 setzen und dann die Consolenausgabe posten. Einige OpenCL-Treiber haben feine Fehlerlogs, die ich auswerte/anzeige.

Günstigenfalls startet man den ersten Versuch mit der Datei Devices64.au3

Zum BitonicSort unter OpenCL...

Naja, ich hatte absolut keine Lust, das Rad neu zu erfinden, das wirklich Gute an den OpenCL-Kerneln ist, sie laufen idR. ohne Änderung auf JEDEM System (auch Linux). Also hab ich mich bei den INTEL-Beispielen bedient und den Kernel (die Datei BitonicSort.CL) einfach verwendet....

Die Verwendung der Parameter bzw. das Ansprechen des Kernels entnimmt man günstigenfalls aus dem Code, mit der das ursprüngliche Programm (meist C/C++) erstellt wurde.

Übrigens macht es absolut keinen Unterschied in der Geschwindigkeit, ob OpenCL nun über C/C++ oder AutoIt angesprochen wird. Der OpenCL-Treiber compiliert den Kernel für das ausgewählte Device und übernimmt alle Ein/Ausgaben.

Beim vorliegenden BitonicSort-Algorithmus gibt es allerdings einen Pferdefuß. Der Algorithmus besteht aus nacheinander auzurufenden Stufen (stages), welche jede einzeln sehr gut zu parallelisieren sind.

Leider muss dazu der Kernel jedes mal aufgerufen werden, bei Oscars Beispieldateigröße (7680 * 4320Pixel) sind das immerhin 300 Aufrufe!

Dazu kommt, dass der Datentransfer zu den Grafikkarten nur über den PCI-Bus erfolgt. Kostet alles wertvolle Mikro/Millisekunden die sich in der Summe doch bemerkbar machen.

Im Vergleich dazu die anderen Beispiele, die ich alle selbst geschrieben habe (auch die Kernel). Da hat eine GPU absolut kein Problem, ein Apfelmännchen in fast beliebiger Rechentiefe in Millisekunden darzustellen! Selbst eine aktuelle CPU ist mittels SIMD schon SEHR performant!

AspirinJunkie, schau dir mal die beiden Kernel im "Tunnel"-Beispiel an, einmal SIMD, einmal "einfach". Einfach den nicht benötigten auskommentieren. Auf der GPU haben beide die gleiche Performance, auf der CPU ist SIMD ca. 3-4x schneller.....

Hier die Beispiele und Wrapper: OpenCL incl. Beispiele.zip

Und meine (für mich enttäuschenden) Ergebnisse für den BitonicSort:

Spoiler anzeigen

Code

AMD-System:
Anzahl zu sortierender 32-Bit-Farben = 33554432   = 0x0000000002000000
>Number Platforms = 1
>Device verfügbar= 1;1;4;GPU;BeaverCreek;48731504;8791494502920
>Device verfügbar= 1;2;4;GPU;Caicos;65627776;8791494502920
>Device verfügbar= 1;3;2;CPU;AMD A6-3400M APU with Radeon(tm) HD Graphics;66179856;8791494502920

verwendetes Device  1;1;4;GPU;BeaverCreek;48731504;8791494502920
@@ Debug(537) : $MAX_WORK_GROUP_SIZE = 1024
@@ Debug(545) : $LOCAL_WORKGROUP_SIZE = 1024
Puffer füllen...Bitte warten...
VOR  SORT:   0x0000000000000001  0x0000000000000002  0x0000000000000003  0x0000000000000004  0x0000000001FFFFFD  0x0000000001FFFFFE  0x0000000001FFFFFF  0x0000000002000000
@@ Debug(97) : Kernelruntime = 8724.23621822232
@@ Debug(101) : Speicherkopierzeit = 35.1235203388154
@@ Debug(102) : Anzahl Kernelaufrufe = 300
NACH SORT:   0x0000000002000000  0x0000000001FFFFFF  0x0000000001FFFFFE  0x0000000001FFFFFD  0x0000000000000004  0x0000000000000003  0x0000000000000002  0x0000000000000001

verwendetes Device  1;2;4;GPU;Caicos;66807424;8791500794376
@@ Debug(537) : $MAX_WORK_GROUP_SIZE = 256
@@ Debug(545) : $LOCAL_WORKGROUP_SIZE = 256
@@ Debug(97) : Kernelruntime = 7678.76578580038
@@ Debug(101) : Speicherkopierzeit = 138.358899582709
@@ Debug(102) : Anzahl Kernelaufrufe = 300

verwendetes Device  1;3;2;CPU;AMD A6-3400M APU with Radeon(tm) HD Graphics;68318544;8791498697224
@@ Debug(537) : $MAX_WORK_GROUP_SIZE = 1024
@@ Debug(545) : $LOCAL_WORKGROUP_SIZE = 1024
@@ Debug(97) : Kernelruntime = 8867.72863993904
@@ Debug(101) : Speicherkopierzeit = 37.2118072474547
@@ Debug(102) : Anzahl Kernelaufrufe = 300



INTEL-System:
Anzahl zu sortierender 32-Bit-Farben = 33554432   = 0x0000000002000000
>Number Platforms = 2
>Device verfügbar= 1;1;4;GPU;GeForce GTX 950M;2659965740256;2659965740336
>Device verfügbar= 2;1;2;CPU;Intel(R) Core(TM) i7-7500U CPU @ 2.70GHz;2659959786096;2659965605984
>Device verfügbar= 2;2;4;GPU;Intel(R) HD Graphics 620;2659966195648;2659965605984

verwendetes Device  1;1;4;GPU;GeForce GTX 950M;2218229622960;2218229620880
@@ Debug(540) : $deviceid = 2218229622960
>Error code: 0
@@ Debug(542) : $MAX_WORK_GROUP_SIZE = 1024
@@ Debug(550) : $local_workgroup_size = 1024
VOR  SORT:   0x0000000000000001  0x0000000000000002  0x0000000000000003  0x0000000000000004  0x0000000001FFFFFD  0x0000000001FFFFFE  0x0000000001FFFFFF  0x0000000002000000
@@ Debug(98) : Kernelruntime = 3046.04827258151
@@ Debug(102) : Speicherkopierzeit = 41.1271477469351
@@ Debug(103) : Anzahl Kernelaufrufe = 300
NACH SORT:   0x0000000002000000  0x0000000001FFFFFF  0x0000000001FFFFFE  0x0000000001FFFFFD  0x0000000000000004  0x0000000000000003  0x0000000000000002  0x0000000000000001


verwendetes Device  2;1;2;CPU;Intel(R) Core(TM) i7-7500U CPU @ 2.70GHz;2000432780336;2000465201648
@@ Debug(542) : $MAX_WORK_GROUP_SIZE = 8192
@@ Debug(550) : $local_workgroup_size = 8192
@@ Debug(98) : Kernelruntime = 3970.81246868319
@@ Debug(102) : Speicherkopierzeit = 13.5320354436647
@@ Debug(103) : Anzahl Kernelaufrufe = 300


verwendetes Device  2;2;4;GPU;Intel(R) HD Graphics 620;2570054211120;2570053626544
LOG:
fcl build 1 succeeded.
bcl build succeeded.
@@ Debug(539) : $MAX_WORK_GROUP_SIZE = 256
@@ Debug(547) : $LOCAL_WORKGROUP_SIZE = 256
@@ Debug(107) : Kernelruntime = 4226ms
@@ Debug(111) : Speicherkopierzeit = 18ms
@@ Debug(112) : Anzahl Kernelaufrufe = 300

Alles anzeigen

Wie schnell sind eure Desktop-Grafikkarten bzw. CPU´s?

Wer hat ggf einen "einfachen" OpenCL-Kernel zum Sortieren gefunden? Bei dem von mir gefundenen Radix-Sort verstehe ich den C/C++-Code nicht, der den Kernel anspricht.....

**Mars**

Code

verwendetes Device  2;1;4;GPU;GeForce GTX 1060 3GB;515176674480;515176674720
@@ Debug(539) : $MAX_WORK_GROUP_SIZE = 1024
@@ Debug(547) : $LOCAL_WORKGROUP_SIZE = 1024
@@ Debug(107) : Kernelruntime = 653ms
@@ Debug(111) : Speicherkopierzeit = 11ms
@@ Debug(112) : Anzahl Kernelaufrufe = 300

verwendetes Device  1;1;2;CPU;       Intel(R) Core(TM) i5-3570K CPU @ 3.40GHz;61252735744;61115876800
@@ Debug(539) : $MAX_WORK_GROUP_SIZE = 1024
@@ Debug(547) : $LOCAL_WORKGROUP_SIZE = 1024
@@ Debug(107) : Kernelruntime = 8861ms
@@ Debug(111) : Speicherkopierzeit = 33ms
@@ Debug(112) : Anzahl Kernelaufrufe = 300

verwendetes Device  2;2;4;GPU;GeForce GT 630;939019941040;939019940240
@@ Debug(539) : $MAX_WORK_GROUP_SIZE = 1024
@@ Debug(547) : $LOCAL_WORKGROUP_SIZE = 1024
@@ Debug(107) : Kernelruntime = 4482ms
@@ Debug(111) : Speicherkopierzeit = 319ms
@@ Debug(112) : Anzahl Kernelaufrufe = 300

Alles anzeigen

Wie zu erwarten. CPU < Billigstgrafikkarte < Einsteiger Gamingkarte

Man sieht: Die Intel HD620 ist ähnlich schnell wie eine Nvidia 630GT^^