txt umformatierung mit php/javascript?

Crash Override

BOfH

Registered: Jun 2005
Location: Germany
Posts: 2951

12.10.2007 - 14:37

Junge, pack das in eine Datenbank (mysql), alles andere wird eine Katastrophe. LONGTEXT ist gross genug für die Zeichenfolge (2^32 Bytes).

COLOSSUS

Administrator
GNUltra

Registered: Dec 2000
Location: ~
Posts: 12205

12.10.2007 - 14:43

Nah, in einer relationalen Datenbank ist das Datenmaterial nie und nimmer besser aufgehoben als sequentiell in einem File mit einem speziell auf diese Problemstellung angepassten Toolset.

fatmike182

Agnotologe

Registered: Oct 2005
Location: VIE
Posts: 4223

12.10.2007 - 14:44

ok - war eben die Frage schon zu beginn, ob das mit Buffer, DB oder File zu lösen ist.

Wäre mir in einer DB am liebsten!

@Colo:
ausgeben würd ichs danneh in einem File, nur den prozess (splitten usw) würd ich über die DB machen - schlechte Idee?

COLOSSUS

Administrator
GNUltra

Registered: Dec 2000
Location: ~
Posts: 12205

12.10.2007 - 14:51

Um ein einmaliges Parsen des Files kommst du nicht herum, das musst du auch machen, wenn du die Daten sinnvoll in eine mysql-Datenbank fuettern willst. 3GB sind aber eine Menge Zeug, und MySQL ist nicht grade fuer seine INSERT-Performance beruehmt -> das kann und wird dauern. Mit Tuning der Input-Buffer sollte sich da auch einiges an Performance herausschinden lassen.

Prinzipiell ist es sicher keine schlechte Idee, die Daten in einer Datenbank abzulegen, aber wenn das passiert muss es nicht zwingend ein RDBMS wie MySQL sein (`db` ist eine Datenbank, die fuer simples Key=Value-Datenmaterial quasi ideal ist), und wenn schon, dann soll sicher nicht das ganze File in einen Tabellenrecord geschrieben werden (ich glaube naemlich, Crash Override hat das so gemeint - deswegen der Hinweis mit dem Datentyp). Dann waerst du erst wieder auf die Stringfunktionen von MySQL angewiesen; und die sind keinesfalls schneller als die von speziell fuer derartige Aufgaben geeignete Programme und/oder Programmiersprachen.

DKCH

Administrator
...

Registered: Aug 2002
Location: #
Posts: 3340

12.10.2007 - 14:57

ich würde da auch die berkeley db in betracht ziehen, die kann sowas auch recht gut...

mr.nice.

differential image maker

Registered: Jun 2004
Location: Wien
Posts: 6624

12.10.2007 - 14:59

Hab zuhaus ein Bioinformatik Buch, ich werd einen kurzen Blick reinwerfen und schauen was die vorschlagen.

Römi

Hausmeister

Registered: Feb 2001
Location: Bez. Tulln
Posts: 5369

12.10.2007 - 15:00

Imo ob datenbank oder nicht hängt davon ab wie oft die Lösung verwendet wird...
Wenn man das ständig braucht ist eine DB sicher eine gute idee...

fatmike182

Agnotologe

Registered: Oct 2005
Location: VIE
Posts: 4223

12.10.2007 - 15:07

nope - ist afaik eine einmalige Umformatierung.
Die Daten sind 10 Jahre gesammelt worden, also wirds nicht bald wieder vorkommen - und wenn, kommts auf die paar Tage Rechenzeit nicht drauf an.

ich werd glaub ich mal mit der DB versuchen (hoffe, dass das mein kleines XAMP für Mac auch so sieht) - bin irgendwie nicht motiviert genug mir die I/O-Sachen anzuschaun, evtl komm ich eh nicht dran vorbei...

@Colo:
meinst du, dass es einfach extremst langsam sein wird (schätzungsweise, wieviel langsamer) oder generell schlecht/fehleranfällig?

Bearbeitet von fatmike182 am 12.10.2007, 15:11

Crash Override

BOfH

Registered: Jun 2005
Location: Germany
Posts: 2951

12.10.2007 - 16:20

Also ich parse hier über die Konsole 3-4GB Textfiles in die Datenbank und raus. Dauert zwischen 2 und 5 Minuten auf unseren Servern.

Crash Override BOfH Registered: Jun 2005 Location: Germany Posts: 2951	12.10.2007 - 14:37 Junge, pack das in eine Datenbank (mysql), alles andere wird eine Katastrophe. LONGTEXT ist gross genug für die Zeichenfolge (2^32 Bytes).
COLOSSUS Administrator GNUltra Registered: Dec 2000 Location: ~ Posts: 12205	12.10.2007 - 14:43 Nah, in einer relationalen Datenbank ist das Datenmaterial nie und nimmer besser aufgehoben als sequentiell in einem File mit einem speziell auf diese Problemstellung angepassten Toolset.
fatmike182 Agnotologe Registered: Oct 2005 Location: VIE Posts: 4223	12.10.2007 - 14:44 ok - war eben die Frage schon zu beginn, ob das mit Buffer, DB oder File zu lösen ist. Wäre mir in einer DB am liebsten! @Colo: ausgeben würd ichs danneh in einem File, nur den prozess (splitten usw) würd ich über die DB machen - schlechte Idee?
COLOSSUS Administrator GNUltra Registered: Dec 2000 Location: ~ Posts: 12205	12.10.2007 - 14:51 Um ein einmaliges Parsen des Files kommst du nicht herum, das musst du auch machen, wenn du die Daten sinnvoll in eine mysql-Datenbank fuettern willst. 3GB sind aber eine Menge Zeug, und MySQL ist nicht grade fuer seine INSERT-Performance beruehmt -> das kann und wird dauern. Mit Tuning der Input-Buffer sollte sich da auch einiges an Performance herausschinden lassen. Prinzipiell ist es sicher keine schlechte Idee, die Daten in einer Datenbank abzulegen, aber wenn das passiert muss es nicht zwingend ein RDBMS wie MySQL sein (`db` ist eine Datenbank, die fuer simples Key=Value-Datenmaterial quasi ideal ist), und wenn schon, dann soll sicher nicht das ganze File in einen Tabellenrecord geschrieben werden (ich glaube naemlich, Crash Override hat das so gemeint - deswegen der Hinweis mit dem Datentyp). Dann waerst du erst wieder auf die Stringfunktionen von MySQL angewiesen; und die sind keinesfalls schneller als die von speziell fuer derartige Aufgaben geeignete Programme und/oder Programmiersprachen.
DKCH Administrator ... Registered: Aug 2002 Location: # Posts: 3340	12.10.2007 - 14:57 ich würde da auch die berkeley db in betracht ziehen, die kann sowas auch recht gut...
mr.nice. differential image maker Registered: Jun 2004 Location: Wien Posts: 6624	12.10.2007 - 14:59 Hab zuhaus ein Bioinformatik Buch, ich werd einen kurzen Blick reinwerfen und schauen was die vorschlagen.
Römi Hausmeister Registered: Feb 2001 Location: Bez. Tulln Posts: 5369	12.10.2007 - 15:00 Imo ob datenbank oder nicht hängt davon ab wie oft die Lösung verwendet wird... Wenn man das ständig braucht ist eine DB sicher eine gute idee...
fatmike182 Agnotologe Registered: Oct 2005 Location: VIE Posts: 4223	12.10.2007 - 15:07 nope - ist afaik eine einmalige Umformatierung. Die Daten sind 10 Jahre gesammelt worden, also wirds nicht bald wieder vorkommen - und wenn, kommts auf die paar Tage Rechenzeit nicht drauf an. ich werd glaub ich mal mit der DB versuchen (hoffe, dass das mein kleines XAMP für Mac auch so sieht) - bin irgendwie nicht motiviert genug mir die I/O-Sachen anzuschaun, evtl komm ich eh nicht dran vorbei... @Colo: meinst du, dass es einfach extremst langsam sein wird (schätzungsweise, wieviel langsamer) oder generell schlecht/fehleranfällig? Bearbeitet von fatmike182 am 12.10.2007, 15:11
Crash Override BOfH Registered: Jun 2005 Location: Germany Posts: 2951	12.10.2007 - 16:20 Also ich parse hier über die Konsole 3-4GB Textfiles in die Datenbank und raus. Dauert zwischen 2 und 5 Minuten auf unseren Servern.

txt umformatierung mit php/javascript?

Forum Index > Software > Coding Stuff

Crash Override

COLOSSUS

fatmike182

COLOSSUS

DKCH

mr.nice.

Römi

fatmike182

Crash Override