doppelte Worte aus Zeichenkette entfernen - von links beginnen

Banana_2_Day

Hallo,

Quelle

das ist ein Hund\das ist eine Banane\das ist eine Katze\das ist ein Kakadu

Ziel

Hund\Banane\eine Katze\das ist ein Kakadu

Ich möchte von links beginnen und jedes Wort löschen, welches rechts vom aktuellen Begriff vorhanden ist.

Alle doppelten Worte sollen entfernt werden.

Achtung - der Backslash muss im Text und die Wortreihenfolge erhalten bleiben.

Wie kann ich das elegant umsetzen?

**Moombas**

Generell:

Trenne alle einzelnen Strings auf (Separator bzw. Delimiter ist dann "/") und speichere sie z.B. in einem array

Dann gehst du das array durch und prüfst ob die einzelnen Worte nochmal irgendwo im array vorkommen (StringInStr), und löscht dann ggf.

Danach kannst du den Rest wieder zusammen setzen und auch den "/" wieder hinzufügen.

Banana_2_Day

Zitat von Moombas

Dann gehst du das array durch und prüfst ob die einzelnen Worte nochmal irgendwo im array vorkommen (StringInStr), und löscht dann ggf.

Danke für den Hinweis, die Idee hatte ich zuvor ausgetestet.

Gehen wir davon aus, dass ich die Textzeile als Array gesplittet habe.
Mit der ersten For / Next Schleife durchlaufe ich das Array.

Ab da wird es für mich kompliziert.

Wie setze ich die Schleife so fort, dass ich nach einem gefundenen Element weiter suche, das vorherige Element lösche und dann weitersuche?

Wenn ich ein doppeltes Element gefunden und gelöscht habe, dann hat das Array eine andere Größe - die erste For/Next Schleife funktioniert nicht mehr, da diese von x Elementen und nicht x minus gelöschte Elemente ausgeht.

Auch weiß ich nicht, wie ich die Schleifen so ineinanderlege, dass das kein Kuddel Muddel wird.

Ich scheitere an der mehrfachen Verschachtelung und der Neuberechnung des Arrays.

Hast Du ein Beispiel dafür, wie es funktionieren könnte?

Banana_2_Day

PS: einen interessanten Beitrag dazu fand ich hier

2D Array - Doppelte Beziehungen bestimmter Spalten in einem Array ermitteln und löschen

aber den verstehe ich noch weniger

**Moombas**

Stopp

Splittest deinen string auf in ein Array (Trenner ist das "/" ).

Ausgang:

das ist ein Hund\das ist eine Banane\das ist eine Katze\das ist ein Kakadu

Ergebnis:

$aArrayA[1] = das ist ein Hund

$aArrayA[2] = das ist eine Banane

$aArrayA[3] = das ist eine Katze

$aArrayA[4] = das ist ein Kakadu

Dann startest du mit dem ersten Teil ($aArrayA[1]) und splittest diesen (Trenner ist das " " )

Ausgang:

das ist ein Hund

Ergebnis:

$aArrayB[1] = das

$aArrayB[2] = ist

$aArrayB[3] = ein

$aArrayB[4] = Hund

Und dann prüfst du durch.

Keine Garantie auf Funktion und nur ein Beispiel:

Code

Global $String = 'das ist ein Hund\das ist eine Banane\das ist eine Katze\das ist ein Kakadu '
Global $aArray = StringSplit($String, '\')
Global $i, $k, $ArrayB

for $i = 1 to $aArrayA[0]
    $aArrayB = Stringsplit($aArrayA[$i], ' ')
    if $aArrayA[0] <= $i + 1 then 
        For $k = 1 to $aArrayB[0]
            if StringinStr($aArrayA[$i + 1], $aArrayB[$k]) Then
                ;String $aArrayB[$k] in $aArrayA[$i] löschen 
            EndIf
        Next
    endif
Next

Alles anzeigen

Banana_2_Day

Ich glaube, ich habe was von Bugfix gefunden - teste es gerade.

**water**

Sowas?

Code

#include <Array.au3>
Global $aArray[] = ["Word1", "Word2", "Word1", "Word3", "Word4", "Word1", "Word4", "Word3", "Word2"]
Global $iEnd = UBound($aArray) - 1
For $i = 0 To $iEnd
    For $j = $iEnd to $i + 1 Step -1
        If $aArray[$i] = $aArray[$j] Then
            _ArrayDelete($aArray, $j)
            $iEnd = $iEnd - 1
        EndIf
    Next
Next
_ArrayDisplay($aArray)

Alles anzeigen

Banana_2_Day

Zitat von water

Sowas?

Hallo Water,

im Prinzip ja, nur soll das letzte Wort erhalten bleiben. Von links ausgehend lesen und löschen - das Wort am weitesten rechts bleibt erhalten. Siehe mein Beispiel aus Post 1.

Code

Global $aArray[] = ["Word1", "Word2", "\" , "Word2", "Word3",  "\" , "Word3", "Word4"]
Global $iEnd = UBound($aArray) - 1
For $i = 0 To $iEnd
    For $j = $iEnd to $i + 1 Step -1
        If $aArray[$i] <> "\" Then
            If $aArray[$i] = $aArray[$j] Then
                _ArrayDelete($aArray, $j)
                $iEnd = $iEnd - 1
            EndIf
        EndIf
    Next
Next
_ArrayDisplay($aArray)

Alles anzeigen

Bei Deinem Script bleibt jeweils das erste Wort erhalten.

Row0 Word1

Row 1 Word2

Row2 \

Row 3 Word3

Row 4 \

Row 5 Word4

Ich möchte, dass doppelte Worte von links ausgehend gelöscht werden.

Gesuchtes Ergebnis ist:

Row0 Word1

Row 1 \

Row 2 Word2

Row 3 \

Row 4 Word3

Row 5 Word4

oder um mein Beispiel von oben zu nehmen - hier als Formel für das Script

Global $aArray[] = [ "das", "ist", "ein", "Hund", "\", "das", "ist", "eine", "Banane", "\", "das", "ist", "eine", "Katze", "\", "das", "ist", "ein", "Kakadu" ]

Ergibt mit Deinem Script noch nicht

richtig wäre:

Hund

\

Banane

\

eine

Katze

\

das

ist

ein

Kakadu

sondern (falsch)

das

ist

ein

Hund

\

eine

Banane

\

Katze

\

Kakadu

Kannst Du Dein Script so abändern, dass die Doubletten von links ausgehend gelöscht werden? Vielen Dank für die bisherige Hilfe!

**water**

Versuch #2:

Code

#include <Array.au3>
Global $aArray[] = ["das", "ist", "ein", "Hund", "\", "das", "ist", "eine", "Banane", "\", "das", "ist", "eine", "Katze", "\", "das", "ist", "ein", "Kakadu"]
For $i = UBound($aArray)-1 To 0 Step -1
    For $j = $i - 1 To 0 Step -1
        If $aArray[$j] <> "\" And $aArray[$j] <> "~~" Then
            If $aArray[$i] = $aArray[$j] Then $aArray[$j] = "~~"
        EndIf
    Next
Next
For $i = UBound($aArray)-1 To 0 Step -1
    If $aArray[$i] = "~~" Then _ArrayDelete($aArray, $i)
Next
_ArrayDisplay($aArray)

Alles anzeigen

**water**

Oder (kürzer) so:

Code

#include <Array.au3>
Global $aArray[] = ["das", "ist", "ein", "Hund", "\", "das", "ist", "eine", "Banane", "\", "das", "ist", "eine", "Katze", "\", "das", "ist", "ein", "Kakadu"]
For $i = UBound($aArray) - 1 To 0 Step -1
    For $j = $i - 1 To 0 Step -1
        If $aArray[$j] <> "\" Then
            If $aArray[$i] = $aArray[$j] Then
                _ArrayDelete($aArray, $j)
                $i = $i - 1
            EndIf
        EndIf
    Next
Next
_ArrayDisplay($aArray)

Alles anzeigen

Banana_2_Day

Zitat von water

Versuch #2:

wow - Treffer und versenkt. Danke!

Du durchläufst das Array rückwärts .... setzt doppelte Werte auf "~~" ... aber wie genau?

Kannst Du den Teil kurz erklären?

Wie findest Du die doppelten Einträge?

Im 2. Schritt werden alle Array-Einträge,die "~~" entsprechen, gelöscht. Richtig?

**UEZ**

Hier mein Lösungsvorschlag:

AutoIt

#include <Array.au3>

$sInput = "das ist ein Hund\das ist eine Banane\das ist eine Katze\das ist ein Kakadu"
$sInput = StringReplace($sInput, "\", " \ ")
$aSplit = StringSplit($sInput, " ", 3)
$aUnique = _ArrayUnique($aSplit)

For $i = 1 To $aUnique[0]
    If $aSplit[$i] = "\" Then ContinueLoop
    StringReplace($sInput, $aUnique[$i], $aUnique[$i])
    $aCount = StringRegExp($sInput, "\b" & $aUnique[$i] & "\b", 3)
    $iCount = UBound($aCount)
    If $iCount > 1 Then
            For $j = 0 To UBound($aSplit) - 1
                If $iCount > 1 Then
                    If $aUnique[$i] = $aSplit[$j] Then
                        $aSplit[$j] = ""
                        $iCount -= 1
                    EndIf
                EndIf
            Next
    EndIf
Next

$sResult = ""
For $i = 0 To UBound($aSplit) - 1
    If $aSplit[$i] <> "" Then
        $sResult &= $aSplit[$i]
        If $aSplit[$i] <> "\" Then
            If $i < UBound($aSplit) - 1 Then
                If $aSplit[$i + 1] <> "\" And $aSplit[$i + 1] <> " " Then $sResult &= " "
            EndIf
        EndIf
    EndIf
Next
ConsoleWrite($sResult & @CRLF)

Alles anzeigen

Banana_2_Day

Zitat von UEZ

Hier mein Lösungsvorschlag:

Danke für diese Variante.

**AspirinJunkie**

Als Einzeiler könnte es so aussehen:

AutoIt

MsgBox(0,"",StringRegExpReplace("das ist ein Hund\das ist eine Banane\das ist eine Katze\das ist ein Kakadu", '(\b\w+\b\s?)(?=.+\1)', ''))

**water**

Zitat

Du durchläufst das Array rückwärts .... setzt doppelte Werte auf "~~" ... aber wie genau?

Kannst Du den Teil kurz erklären?

Wie findest Du die doppelten Einträge?

Im 2. Schritt werden alle Array-Einträge,die "~~" entsprechen, gelöscht. Richtig?

Richtig. Ich gehe von rechts nach links durch und prüfe für jedes Wort ob es weiter links (bis zum ersten Wort) nochmals vorkommt. Falls ja, wird es markiert und im zweiten Schritt gelöscht.

**UEZ**

Zitat von AspirinJunkie
Als Einzeiler könnte es so aussehen:
AutoIt
MsgBox(0,"",StringRegExpReplace("das ist ein Hund\das ist eine Banane\das ist eine Katze\das ist ein Kakadu", '(\b\w+\b\s?)(?=.+\1)', ''))

Cool

Musashi

Zitat von AspirinJunkie

Als Einzeiler könnte es so aussehen :
MsgBox(0,"",StringRegExpReplace("das ist ein Hund\das ist eine Banane\das ist eine Katze\das ist ein Kakadu", '(\b\w+\b\s?)(?=.+\1)', ''))

Vorab erst einmal den . Immer wieder verrückt, was man mit RegEx so machen kann .

Fügt man allerdings ein Element hinzu, hier \das ist kein Hummer , dann lautet die Ausgabe :

Hund\Banane\eine Katze\Kakadu\das ist kein Hummer

Müsste es nicht aber wie folgt aussehen ? :

Hund\Banane\eine Katze\ein Kakadu\das ist kein Hummer

AutoIt

#include <Array.au3>

; 1. akt. Variante von @water :
Global $aArray[] = ["das", "ist", "ein", "Hund", _
                    "\", "das", "ist", "eine", "Banane", _
                    "\", "das", "ist", "eine", "Katze", _
                    "\", "das", "ist", "ein", "Kakadu", _
                    "\", "das", "ist", "kein", "Hummer"]
For $i = UBound($aArray) - 1 To 0 Step -1
    For $j = $i - 1 To 0 Step -1
        If $aArray[$j] <> "\" Then
            If $aArray[$i] = $aArray[$j] Then
                _ArrayDelete($aArray, $j)
                $i = $i - 1
            EndIf
        EndIf
    Next
Next
_ArrayDisplay($aArray, 'Variante @water')

; 2. akt. Variante von @AspirinJunkie :
MsgBox(0,"",StringRegExpReplace("das ist ein Hund\das ist eine Banane\das ist eine Katze\das ist ein Kakadu\das ist kein Hummer", '(\b\w+\b\s?)(?=.+\1)', ''))

Alles anzeigen

EDIT :

(Zur Sicherheit, damit es nicht falsch 'rüberkommt. Das ist eine Frage - keinesfalls eine Kritik ! )

Gruß Musashi

**AspirinJunkie**

Zitat von Musashi

Fügt man allerdings ein Element hinzu, hier \das ist kein Hummer , dann lautet die Ausgabe :
Hund\Banane\eine Katze\Kakadu\das ist kein Hummer
Müsste es nicht aber wie folgt aussehen ? :
Hund\Banane\eine Katze\ein Kakadu\das ist kein Hummer

Hm interessant - er übernimmt nicht die Word-Boundarys als Teil der Matches weswegen er dann das "ein" beim matchen wieder innerhalb von "kein" findet.
(Er geht hierbei schrittweise von hinten nach vorn). Die Word-Boundary als Bedindung hat er dabei aber schon vergessen und prüft die gar nicht mehr, weswegen das "k" von "kein" ignoriert wird.
Daher muss man die Word-Boundarys explizit wieder mit reinnehmen - dann klappt es auch:

AutoIt

MsgBox(0,"",StringRegExpReplace("das ist ein Hund\das ist eine Banane\das ist eine Katze\das ist ein Kakadu\das ist kein Hummer", '(\b\w+\b\s?)(?=.+\b\1\b)', ''))

Musashi

**autoiter**

Richtig tolles Know How AspirinJunkie