"We are back" « oc.at

S: Aus vielen html Files einen Link graph / Abhängigkeitsdiagramm erstellen

Viper780 18.05.2025 - 13:57 2334 18
Posts

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 51658
Ich hab aus einem alten, statischen wiki einen Export von über 1000 html Files.
Leider gibts keinen Index mehr und ich weiß nicht wo ich starten soll beim analysieren des Inhaltes.

Ich würde jetzt gerne eine "Karte" mit allen Files erstellen welche die Verlinkungen zwischen den Files darstellen.

Perfekt wäre es wenn alle Pages ohne eingehenden Links hervorgehoben werden.

Kennt wer passende Werkzeuge oder Begriffe nach denen ich suchen kann?

Tosca

Here to stay
Avatar
Registered: Feb 2002
Location: 1030
Posts: 996
Eventuell mit dem Screaming Frog SEO Spider!

Daeda

Here to stay
Registered: Aug 2007
Location: Graz
Posts: 1716
ki? den ordner mit in einer IDE mit zugriff auf copilot & co. öffnen, die files analysieren lassen und dann entweder in unterordner moven oder einen index erstellen lassen. mit den riesigen contexts von gemini 2.5 pro und gpt4.1 sollten die das beide hinbekommen.

semteX

hasst die KI
Avatar
Registered: Oct 2002
Location: Pre
Posts: 14947
ich würd die HTML pages lesen, mit regexp die relativen links holen (die absoluten gehen ja extern) und eine simple datenstruktur ausbauen:

Page X: Incoming A B C, Outgoing D E F G H

und das kannst dann entweder in ascii printen lassn wie richtige männer oder in irgend ein javascript framework pudern welches lustige bubbles und pfeile zeichnet

TOM

Legend
Oldschool OC.at'ler
Avatar
Registered: Nov 2000
Location: Vienna
Posts: 7509
Den Begriff welchen Du suchst lautet "MindMap"

Hier zwei examples:
https://thinkmachine.com/tools/website-to-mindmap
https://mindpane.net/

Würd mich wundern, wenn man mit bisserl Recherche nicht das eine oder andere brauchbare Projekt auf GitHub für sowas findet
Bearbeitet von TOM am 19.05.2025, 09:40

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 51658
Zitat aus einem Post von Tosca
Eventuell mit dem Screaming Frog SEO Spider!

Muss mir das Tool erst anschauen. Eigentlich brauch ich keinen SEO crawler der links verfolgt. Hab nicht mal einen Webserver zur Verfügung (aber der ist schnell gestartet) sondern muss die Files offline analysieren.
Aber wer weiß und das Tool kann es (auf der Webseite hab ich dazu abe rnichts gefunden)

Zitat aus einem Post von Daeda
ki? den ordner mit in einer IDE mit zugriff auf copilot & co. öffnen, die files analysieren lassen und dann entweder in unterordner moven oder einen index erstellen lassen. mit den riesigen contexts von gemini 2.5 pro und gpt4.1 sollten die das beide hinbekommen.

Da scheitere ich an der Darstellung und die Menge an Files.
Werde mich heute aber nochmal mit VS Code und Copilot dazu setzten

Zitat aus einem Post von semteX
ich würd die HTML pages lesen, mit regexp die relativen links holen (die absoluten gehen ja extern) und eine simple datenstruktur ausbauen:

Page X: Incoming A B C, Outgoing D E F G H

und das kannst dann entweder in ascii printen lassn wie richtige männer oder in irgend ein javascript framework pudern welches lustige bubbles und pfeile zeichnet

Ja ich will eine Smartscape davon haben!
Klickbar, Pfeile damit ich weiß von wo wohin verlinkt wird, gruppiert,...

Gibts da nichts fertiges?

Zitat aus einem Post von TOM
Den Begriff welchen Du suchst ist "MindMap"
Danke - darunter habe ich bisher was anderes Verstanden.

So wie ich verstehe analysieren die den Inhalt und machen mir dann deine MindMap.
Das klappt bei Anleitungen nicht

Zitat aus einem Post von TOM
Hier zwei examples:
https://thinkmachine.com/tools/website-to-mindmap
https://mindpane.net/

Würd mich wundern, wenn man mit bisserl Recherche nicht das eine oder andere brauchbare Projekt auf GitHub für sowas findet

Die brauchen alle eine Website und Crawlen die. Ich brauche etwas das die html files (offline) analysiert.
Bisher nichts entsprechendes gefunden

Tosca

Here to stay
Avatar
Registered: Feb 2002
Location: 1030
Posts: 996
Zitat aus einem Post von Viper780
ss mir das Tool erst anschauen. Eigentlich brauch ich keinen SEO crawler der links verfolgt. Hab nicht mal einen Webserver zur Verfügung (aber der ist schnell gestartet) sondern muss die Files offline analysieren.
Aber wer weiß und das Tool kann es (auf der Webseite hab ich dazu abe rnichts gefunden)

https://www.screamingfrog.co.uk/seo...visualisations/

Schaut ziemlich brauchbar aus - du müsstest das nur lokal zum laufen bringen und dem Crawler eine Liste aller URLs geben. Die Free-Version hat aber leider ein paar Limits afaik.

DKCH

Administrator
...
Registered: Aug 2002
Location: #
Posts: 3376
python mit beautifulsoup drüberlaufen lassen, .dot file generieren und dann spaß mit graphviz? ich meld mich gern als sub-contractor :p

semteX

hasst die KI
Avatar
Registered: Oct 2002
Location: Pre
Posts: 14947
Zitat aus einem Post von DKCH
python mit beautifulsoup drüberlaufen lassen, .dot file generieren und dann spaß mit graphviz? ich meld mich gern als sub-contractor :p

da fehlt die KI welche *irgendwas* tut.

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 51658
Powered by DavisDKCH Ai

Ich schau es mir am Abend mal an wie weit ich meinen bescheidenen Python Fähigkeiten komme.

Meine Hoffnung wäre was fertiges gewesen - jetzt schau ich mir dann Toscas Tipp an

UnleashThebeast

unsäglicher Prolet
Avatar
Registered: Dec 2005
Location: 127.0.0.1
Posts: 3653
Zitat aus einem Post von Viper780
Powered by DavisDKCH Ai

Powered by Alles Inder? ;)

Tosca

Here to stay
Avatar
Registered: Feb 2002
Location: 1030
Posts: 996
Ich nehme an du kannst das nicht aus der Hand geben, sonst würde ich den Screaming Frog da schnell drüberlaufen lassen (hab die Pro Version in der Firma). Wenn man beruflich irgendwie mit größeren Webseiten zu tun hat ist das Ding die 200 pro Jahr aber definitiv wert, auch für andere Sachen ;)

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 51658
Es sind leider Kundendaten - die kann ich nicht mal in eine KI werfen (Github CoPilot damit auch nicht - Tennant grenze geht nur für den aus MS365)

Aber der Screaming Frog SEO Spider ist ein tolles Tool was genau das liefern würde was ich benötige. Nur fehlen mir 2/3 der Daten durch die 500 Links Grenze. Mal schauen ob ich die ~300€ genehmigt bekomme.

Als Crawler sieht er aber nur verlinkte Seiten und zB keine verwaiste Seiten

Longbow

Here to stay
Avatar
Registered: Feb 2003
Location: Homeoffice
Posts: 5570
Wie soll er auch kanten in einem graphen anlegen, wenn die knoten keine verbindungen haben?

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 51658
Zitat aus einem Post von Longbow
Wie soll er auch kanten in einem graphen anlegen, wenn die knoten keine verbindungen haben?

Als Eigenständiges Diagramm oder "freischwebende" Knoten
Kanten können natürlich nicht dargestellt werden, wenn keine Verbindungen exisiteren

Am Filesystem habe ich zugriff auf alle Files und einer vollständigen Liste davon.
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz