Regulärer Ausdruck: Erkennen von '>'

Aquaplant

Hallo,

ich hoffe ihr könnt mich aufklären.
Auf der Suche nach Zeilen mit dem Zeichen '>' finde ich mit AutoIt nichts:

AutoIt

$fnames = StringRegExp($string, "\s*>(.*)", $STR_REGEXPARRAYGLOBALMATCH)

Wenn ich den Regex bei Rubular teste erhalte ich genau die Teile, die mich interessieren. Ich habe auch schon das '>' per '\' escaped, finden tut er es trotzdem nicht. Bei der gezielten Suche nach diesem Zeichen ist ebenfalls weder mit noch ohne escapen ein Treffer da:

AutoIt

MsgBox(0, "", StringRegExp($string, "\>", 0)) ;$STR_REGEXPMATCH

Wer kann mir erklären woran das liegt?

Mein Teststring:

Spoiler anzeigen

>Smp_175550 Gene Sequence
ATGGCGTCCG AATTAGAAGC ATATGTTGGC CGTATCCTTT TTCTTGTTGG TTAAAAATTT
GGTGTTTGTT AGTTCGAAAT CAACCATAGT AGTTGTAGGA GGATGTAGTG ATAGTGGTTC
CTTCTTACAC CATTTAGATA TACATTTTCA TATTTAAAAA AACCATATTA TTTTATTCTT
CTCCTCCATT TGATCTTATT CGCTTTCTCT TTGCAAATAT AATTTCATTA TATTTATATG
AAATAATATG CGTATATTAT ATAAGTAAAA TTCTATGTCA ATTTGTGTAC GTTGTTTTTT
CCCAACTATC TGATAACTTC AAATCAATTA GCTTTTCGCT TAAATAAATG AAAAAAAAAA
TGCAACTGTG ACTTAGTAAC AGTTCATAAT GTTATTGACT GTTCGACTGA AGCGTGTAGG
TGTGTGTTTA TAGGCTAACT GGTTGTGCTC CGCGTGATTA TCGCATGCAA TTTAATATAA
AGAAGTAGTT TGTGATCCTA TGGTACAAAT ATACAAGATA ATCGACTGAG TGAGTAGTCC
AGCTGAGCAT ACCAGGAAAA GATACTAAAT AATTGGACTA ATATACTAGC TCACAGCTGA
AAACGAATGT AAGGCCAATA AAAGTTACCT TCTATTCACT AAATCTCGTT GTTTACGCAT
ATCAGTCTTT TCTTTCATTC AAGCTATTTC TTTTTTATTT CGCTTATTTT CGTTACAATA
ACTTTGAATG TATTCATCAA ATATTTCATG TATAGTCTAT GCTCGTAGGA TGTACACGCA
ATCAATTTCA GTGGATCAGT AAACAGAATA TCAATATTGC ATATCTATCA TCTAGGGAAT
TCTACTTTCT TTAACCATTT TCTTTATATA TACCAGGAAT GGTAAATGTT ATAACATCAG
ATGGAAGAAC TATTGTCGTA AGTGAAGTTT TTTTTGAATT ATATGTATTT ATATACTCAA
TTTAGTTTAG TCAAGTTAAA AGAAGTGCTA ATTCCCAAAC AAACAAAAAT TTATCAGTAA
GGAGTAACAT AAATTCATTC AGTATTGTTT GTTTGAATCT TCTCATCGAT GTGTTAGGAC
TGCACAGTAT GCACATATAC CAATTAGAGA CTGACCAGTT GCAGTCCTAA CACATCGATG
GAAAGATTCA AACAAACAAT ACTAAATGAA CTTAAACTTC ACCCCATCGC ACAAGCAAGT
GGCTATCAGG ACTCAGTGGC CGAGTGGATA ACGCGATGGC GTTTGAAGCG AAGGTTACTG
GGTTCGAGTG CCAGAGTGAA CATCAACTGT GAGATGCAGG TACACCCAGC TGACGAGTCC
CAAATAGTAC GAAACGCGCG TCCTGAATTT CACTGCTAGT CACTATCCAT CTTTGCATAC
CAAGAAGTAA CATATTTATA CCGAGCTAGA ATACCAATAA TTAATAGAAA CAATTTAAAT
TGTTCACACA CACAAGAGAA AATGTACGAT CAAAAGCAAA GCGGCGATAG ATGAGGAAAA
AAATATTTTG ACAGGTAGAA TCATCAAAAT TTGATTATGA GTGAATGGAA TAATTCATTA
CGATAGGAAA GACAACACGC TGCAGCATAC GTGTCAATTA ATTATCAGAA GAGGGTTTTT
GTGGAGATTT AGTATTTTCA TAGTTGAAAT CACGACCTCG ACTCGTGGAT GCGCACTGCT
GAGGAGTCCC ACAATGGGGC GAAACGGCCT TCCAGTACTC TCAGGTTTTC CATGGTGGTC
GAGCTTCGAT TGACTCACGC TTTCAACTAT TTAAATAATT ACAAAAGCAA TTCCAACTAT
TGAGAATTTG TTAGATTTAC AAAGATAATG TAACCGATGT TGTATAAATT GAAAGACTGT
CACAGCTTCT CAGAATATTT ATACAGAAAT ATATTTATAG AATACTGAAT GGTTCCACAA
CACATCCAGC TCAACAACAA CAGTCAATTC GTAGCTGAAA CAAGCACAAA ATCCTATCTT
ATATGCCAGG ATAGATTGAG TATGAATCAA TAAACCAGAG AACAGTTGAT TTACTAATAT
TTATTTTTAT CAATGAAATA CAAGGAACGG AAAAATTCTA GTCACTCATA TATATATCAT
ATTTATAATG TGCGAGCTTC ATACTCTCTA CTCCGGATTT AGAGTTAATT TCATTTTCCC
TTTATTTTGC GTTGATAACA ACTGCCCAAA TCTTCTGTAA TACTTAGTTG TCAGATTTAC
CCCTTTTATA TCAACTGATT CGTCTCTTCT CAGTATCAGT AAATTGCTCG GCAAGAGTAC
ACTTTCTTCA CCAAAATCTT CCATCAGTCT TACTAACGGC TTGTTTTTCA AATCCTTTCT
GCCTTCACTA GTGTTGTCTG AAGTACAATA TCAGTAATCG GCTATTGATC TAAAACAAAT
ACTACTATCC TTTCACATCG TTTTGATAAA CCTCCCTATA ATCCTATGTA GTAGGCTTTC
GGAAGATTAC CTTGAATATT AATTTAACAT AAACTAGTTA TTTTTTTGTG GTACTATCTA
GTATTTATAT ATATTCCGAC AAGCTATCTT CTCGTTTACA TGACCTCGTC TACATTTTCC
TGGTGAATAT AATAAAGCTT TTTATTAATC ATTAACAAAA TACAGATCAT AACATTATTT
ATTTATTTAA ACATAGATAT TGATACAAAA AGCACCAGAT ACACATGCGC CGCACAAATC
TCATTCGATT TGTGAGGGCT GTGATACTGC CCAGGTGCCC AAACTGAAGC GGGTGGTTTT
CTTAGGGGGT CACACCCGGA GCCTTTGACC TAAAATTCTA ATCCACAAGG CAGTGGAGCA
TCGTAAGAAG ATGCAGTCCC ACGGTAGCCG GTGACCAACG ATTGATTCGT ACGCCATTTG
TTCCCTCAGG ATACTGGAGC ACCACTGGTT TTGAATCAGG GTTTTCTAAC TCCCCTAGAT
GGATTTTCCG TGTACACCAA CCCGGTTGAA GCGTCGGACA TTCGCTTTTC GTCCTCTCAA
TTTCGTAAAC GACACCCTCT TTACGGGAAG GCAGTGAGTA GGACTTCCGT GACAGAGGCT
ATATACGCGT GGCCATGTGA GAGCATTTGG AGAGGGAGAG TGGGCTCTCC CCACTCTCGG
CCGTACCAAG GCATTTGGGG GCAAAAGCCG TGCGCCGGCC GTGAATTTTC ATTCCATTTT
GAATTTCTAT ATGAATGATG ATAAAATTAT TTTGTTTACC ATCCTTGTCA TCCTAGCTAA
TCTTAATAAA ATTACTCACT TTACTAGGGT ACATTAAAAG GATTTGATAA TGTTGTCAAT
CTTGTTATCA AAGATAGCCA TGAACGAGTT TTCAGTCCAA CTGAAGGTGT TGAACAAGTT
CCATTGGGTT TATTTATTAT TCGAGGACAG AATGTGTAAG TTGTGTTGAT ATAAAGCTGT
AGTTAGTTGC AAAATTACTA GTTCTGAGGT TGAAACTTTA AATGATGCAA TATTTATTTG
TACTATGCTA TTTTTTCCAG GGCTGTAGTC GGAGAACTTG ATGAAGATCT AGATAGGCGA
ATTGATTTTT CACAACTTCG TGCTGAACCT CTTAATCCTG TTGTACATTA A
>Full transcript CDS
ATGGCGTCCG AATTAGAAGC ATATGTTGGC CGAATGGTAA ATGTTATAAC ATCAGATGGA
AGAACTATTG TCGGTACATT AAAAGGATTT GATAATGTTG TCAATCTTGT TATCAAAGAT
AGCCATGAAC GAGTTTTCAG TCCAACTGAA GGTGTTGAAC AAGTTCCATT GGGTTTATTT
ATTATTCGAG GACAGAATGT GGCTGTAGTC GGAGAACTTG ATGAAGATCT AGATAGGCGA
ATTGATTTTT CACAACTTCG TGCTGAACCT CTTAATCCTG TTGTACATTA A

Vielen Dank,
Aquaplant

CentuCore

Zeig mal deine Definition von $string.
Bei mir klappen beide Arten.

Aquaplant

Ich benutze momentan den Text aus dem Spoiler als $string

Keine Ahnung wieso, es klappt jetzt, dafür geht jetzt der andere Regex nicht mehr (bei Rubular funktionieren beide Versionen)

AutoIt

$fasta = StringRegExp($string, "(^[ATGC]+[ATGC\s]*)", $STR_REGEXPARRAYGLOBALMATCH)
    ;bzw
    $fasta = StringRegExp($string, "^([ATGC]+[ATGC\s]*)", $STR_REGEXPARRAYGLOBALMATCH)

Mal eine ganz blöde Frage: Brauche ich einen Puffer um Dateien zu lesen nachdem ich sie geöffnet habe?

CentuCore

Ja, du musst den Dateiinhalt schon in dem RAM schieben.
Sag bitte was du mit dem Regex anstellen willst. Nur "funktioniert nicht" hilft nicht.

Aquaplant

1. Regex:
Alle Zeilen die (mit beliebig vielen whitespaces starten und dann) mit '>' beginnen -> komplette Zeile in ein Array ($fnames)

2. Regex:
Alle Zeilen die A, T, G oder C mindestens einmal enthalten was am Zeilenanfang steht und dann aber dazwischen beliebig viele whitespaces haben dürfen -> alle Zeilen in einen Arrayslot ($fasta)

Oder Kurz gesagt (siehe Spoiler):
Alle Zeilen mit dem > in ein Array
Alles was dazwischen steht jeweils in ein anderes Array

Oder siehe hier:
http://rubular.com/r/n5InG4dAMh
http://rubular.com/r/e7jk0YIoXN

Vielen Dank schon mal

CentuCore

AutoIt

StringRegExp($string, ">(.*[ATGC\s]+)", 3)

Damit holst du dir alle Zeichen nach ">", danach iterierst du durch die Ergebnisse und extrahierst deine Zeilen.

Aquaplant

Dankesehr, das klappt
Mich würde trotzdem interessieren warum der andere Regex nicht so funktioniert wie er sollte. Nehme ich das '^' weg funktioniert er, nur holt er sich dann eben auch noch alle a, t, g und c's aus den restlichen Wörtern...

**BugFix**

Zitat von Aquaplant

"(^[ATGC]+[ATGC\s]*)"
"^([ATGC]+[ATGC\s]*)"

Zitat von Aquaplant

Nehme ich das '^' weg funktioniert er, nur holt er sich dann eben auch noch alle a, t, g und c's aus den restlichen Wörtern...

Beide Pattern sind nicht für Multiline-Suche. Somit ist das ^ nur ein Marker für den Stringanfang, also nicht auch für 'nach Zeilenumbruch'.
Wenn du (?m) vor dein Pattern stellst (bedeutet: Match the remainder of the regex with the options: ^ and $ match at line breaks (m) ), arbeitet es so, wie erwartet.
Und wenn du die Pattern verknüpfst, bekommst du mit einem Aufruf alle Ergebnisse in ein Array:
Item-0: Name1
Item-1: Sequenzen1
Item-2: Name2
Item-3: Sequenzen2
etc.
Immer im Wechsel Name und zugehörige Sequenzen.

EDIT: Sinnvoll ist noch, die Zeilenumbrüche aus den Sequenzen zu entfernen. Habe das mal am Ende angefügt.

AutoIt

#include <Array.au3>
$sPattern = '(?m)(?:>)([^\r\n]+)[\r\n]+(^[ATGC\s]+)'
$sText = _
'>Smp_175550 Gene Sequence' & @CRLF & _
'ATGGCGTCCG AATTAGAAGC ATATGTTGGC CGTATCCTTT TTCTTGTTGG TTAAAAATTT' & @CRLF & _
'GGTGTTTGTT AGTTCGAAAT CAACCATAGT AGTTGTAGGA GGATGTAGTG ATAGTGGTTC' & @CRLF & _
'CTTCTTACAC CATTTAGATA TACATTTTCA TATTTAAAAA AACCATATTA TTTTATTCTT' & @CRLF & _
'CTCCTCCATT TGATCTTATT CGCTTTCTCT TTGCAAATAT AATTTCATTA TATTTATATG' & @CRLF & _
'AAATAATATG CGTATATTAT ATAAGTAAAA TTCTATGTCA ATTTGTGTAC GTTGTTTTTT' & @CRLF & _
'CCCAACTATC TGATAACTTC AAATCAATTA GCTTTTCGCT TAAATAAATG AAAAAAAAAA' & @CRLF & _
'TGCAACTGTG ACTTAGTAAC AGTTCATAAT GTTATTGACT GTTCGACTGA AGCGTGTAGG' & @CRLF & _
'TGTGTGTTTA TAGGCTAACT GGTTGTGCTC CGCGTGATTA TCGCATGCAA TTTAATATAA' & @CRLF & _
'AGAAGTAGTT TGTGATCCTA TGGTACAAAT ATACAAGATA ATCGACTGAG TGAGTAGTCC' & @CRLF & _
'AGCTGAGCAT ACCAGGAAAA GATACTAAAT AATTGGACTA ATATACTAGC TCACAGCTGA' & @CRLF & _
'AAACGAATGT AAGGCCAATA AAAGTTACCT TCTATTCACT AAATCTCGTT GTTTACGCAT' & @CRLF & _
'ATCAGTCTTT TCTTTCATTC AAGCTATTTC TTTTTTATTT CGCTTATTTT CGTTACAATA' & @CRLF & _
'ACTTTGAATG TATTCATCAA ATATTTCATG TATAGTCTAT GCTCGTAGGA TGTACACGCA' & @CRLF & _
'ATCAATTTCA GTGGATCAGT AAACAGAATA TCAATATTGC ATATCTATCA TCTAGGGAAT' & @CRLF & _
'TCTACTTTCT TTAACCATTT TCTTTATATA TACCAGGAAT GGTAAATGTT ATAACATCAG' & @CRLF & _
'ATGGAAGAAC TATTGTCGTA AGTGAAGTTT TTTTTGAATT ATATGTATTT ATATACTCAA' & @CRLF & _
'TTTAGTTTAG TCAAGTTAAA AGAAGTGCTA ATTCCCAAAC AAACAAAAAT TTATCAGTAA' & @CRLF & _
'GGAGTAACAT AAATTCATTC AGTATTGTTT GTTTGAATCT TCTCATCGAT GTGTTAGGAC' & @CRLF & _
'TGCACAGTAT GCACATATAC CAATTAGAGA CTGACCAGTT GCAGTCCTAA CACATCGATG' & @CRLF & _
'GAAAGATTCA AACAAACAAT ACTAAATGAA CTTAAACTTC ACCCCATCGC ACAAGCAAGT' & @CRLF & _
'GGCTATCAGG ACTCAGTGGC CGAGTGGATA ACGCGATGGC GTTTGAAGCG AAGGTTACTG' & @CRLF & _
'GGTTCGAGTG CCAGAGTGAA CATCAACTGT GAGATGCAGG TACACCCAGC TGACGAGTCC' & @CRLF & _
'CAAATAGTAC GAAACGCGCG TCCTGAATTT CACTGCTAGT CACTATCCAT CTTTGCATAC' & @CRLF & _
'CAAGAAGTAA CATATTTATA CCGAGCTAGA ATACCAATAA TTAATAGAAA CAATTTAAAT' & @CRLF & _
'TGTTCACACA CACAAGAGAA AATGTACGAT CAAAAGCAAA GCGGCGATAG ATGAGGAAAA' & @CRLF & _
'AAATATTTTG ACAGGTAGAA TCATCAAAAT TTGATTATGA GTGAATGGAA TAATTCATTA' & @CRLF & _
'CGATAGGAAA GACAACACGC TGCAGCATAC GTGTCAATTA ATTATCAGAA GAGGGTTTTT' & @CRLF & _
'GTGGAGATTT AGTATTTTCA TAGTTGAAAT CACGACCTCG ACTCGTGGAT GCGCACTGCT' & @CRLF & _
'GAGGAGTCCC ACAATGGGGC GAAACGGCCT TCCAGTACTC TCAGGTTTTC CATGGTGGTC' & @CRLF & _
'GAGCTTCGAT TGACTCACGC TTTCAACTAT TTAAATAATT ACAAAAGCAA TTCCAACTAT' & @CRLF & _
'TGAGAATTTG TTAGATTTAC AAAGATAATG TAACCGATGT TGTATAAATT GAAAGACTGT' & @CRLF & _
'CACAGCTTCT CAGAATATTT ATACAGAAAT ATATTTATAG AATACTGAAT GGTTCCACAA' & @CRLF & _
'CACATCCAGC TCAACAACAA CAGTCAATTC GTAGCTGAAA CAAGCACAAA ATCCTATCTT' & @CRLF & _
'ATATGCCAGG ATAGATTGAG TATGAATCAA TAAACCAGAG AACAGTTGAT TTACTAATAT' & @CRLF & _
'TTATTTTTAT CAATGAAATA CAAGGAACGG AAAAATTCTA GTCACTCATA TATATATCAT' & @CRLF & _
'ATTTATAATG TGCGAGCTTC ATACTCTCTA CTCCGGATTT AGAGTTAATT TCATTTTCCC' & @CRLF & _
'TTTATTTTGC GTTGATAACA ACTGCCCAAA TCTTCTGTAA TACTTAGTTG TCAGATTTAC' & @CRLF & _
'CCCTTTTATA TCAACTGATT CGTCTCTTCT CAGTATCAGT AAATTGCTCG GCAAGAGTAC' & @CRLF & _
'ACTTTCTTCA CCAAAATCTT CCATCAGTCT TACTAACGGC TTGTTTTTCA AATCCTTTCT' & @CRLF & _
'GCCTTCACTA GTGTTGTCTG AAGTACAATA TCAGTAATCG GCTATTGATC TAAAACAAAT' & @CRLF & _
'ACTACTATCC TTTCACATCG TTTTGATAAA CCTCCCTATA ATCCTATGTA GTAGGCTTTC' & @CRLF & _
'GGAAGATTAC CTTGAATATT AATTTAACAT AAACTAGTTA TTTTTTTGTG GTACTATCTA' & @CRLF & _
'GTATTTATAT ATATTCCGAC AAGCTATCTT CTCGTTTACA TGACCTCGTC TACATTTTCC' & @CRLF & _
'TGGTGAATAT AATAAAGCTT TTTATTAATC ATTAACAAAA TACAGATCAT AACATTATTT' & @CRLF & _
'ATTTATTTAA ACATAGATAT TGATACAAAA AGCACCAGAT ACACATGCGC CGCACAAATC' & @CRLF & _
'TCATTCGATT TGTGAGGGCT GTGATACTGC CCAGGTGCCC AAACTGAAGC GGGTGGTTTT' & @CRLF & _
'CTTAGGGGGT CACACCCGGA GCCTTTGACC TAAAATTCTA ATCCACAAGG CAGTGGAGCA' & @CRLF & _
'TCGTAAGAAG ATGCAGTCCC ACGGTAGCCG GTGACCAACG ATTGATTCGT ACGCCATTTG' & @CRLF & _
'TTCCCTCAGG ATACTGGAGC ACCACTGGTT TTGAATCAGG GTTTTCTAAC TCCCCTAGAT' & @CRLF & _
'GGATTTTCCG TGTACACCAA CCCGGTTGAA GCGTCGGACA TTCGCTTTTC GTCCTCTCAA' & @CRLF & _
'TTTCGTAAAC GACACCCTCT TTACGGGAAG GCAGTGAGTA GGACTTCCGT GACAGAGGCT' & @CRLF & _
'ATATACGCGT GGCCATGTGA GAGCATTTGG AGAGGGAGAG TGGGCTCTCC CCACTCTCGG' & @CRLF & _
'CCGTACCAAG GCATTTGGGG GCAAAAGCCG TGCGCCGGCC GTGAATTTTC ATTCCATTTT' & @CRLF & _
'GAATTTCTAT ATGAATGATG ATAAAATTAT TTTGTTTACC ATCCTTGTCA TCCTAGCTAA' & @CRLF & _
'TCTTAATAAA ATTACTCACT TTACTAGGGT ACATTAAAAG GATTTGATAA TGTTGTCAAT' & @CRLF & _
'CTTGTTATCA AAGATAGCCA TGAACGAGTT TTCAGTCCAA CTGAAGGTGT TGAACAAGTT' & @CRLF & _
'CCATTGGGTT TATTTATTAT TCGAGGACAG AATGTGTAAG TTGTGTTGAT ATAAAGCTGT' & @CRLF & _
'AGTTAGTTGC AAAATTACTA GTTCTGAGGT TGAAACTTTA AATGATGCAA TATTTATTTG' & @CRLF & _
'TACTATGCTA TTTTTTCCAG GGCTGTAGTC GGAGAACTTG ATGAAGATCT AGATAGGCGA' & @CRLF & _
'ATTGATTTTT CACAACTTCG TGCTGAACCT CTTAATCCTG TTGTACATTA A' & @CRLF & _
'>Full transcript CDS' & @CRLF & _
'ATGGCGTCCG AATTAGAAGC ATATGTTGGC CGAATGGTAA ATGTTATAAC ATCAGATGGA' & @CRLF & _
'AGAACTATTG TCGGTACATT AAAAGGATTT GATAATGTTG TCAATCTTGT TATCAAAGAT' & @CRLF & _
'AGCCATGAAC GAGTTTTCAG TCCAACTGAA GGTGTTGAAC AAGTTCCATT GGGTTTATTT' & @CRLF & _
'ATTATTCGAG GACAGAATGT GGCTGTAGTC GGAGAACTTG ATGAAGATCT AGATAGGCGA' & @CRLF & _
'ATTGATTTTT CACAACTTCG TGCTGAACCT CTTAATCCTG TTGTACATTA A' & @CRLF
$aMatch = StringRegExp($sText, $sPattern, 3)
For $i = 0 To UBound($aMatch) -1
	If Mod($i,2) Then
		$aMatch[$i] = StringRegExpReplace($aMatch[$i], '[\r\n]+', ' ')
	EndIf
Next
_ArrayDisplay($aMatch)

Alles anzeigen