S: Aus vielen html Files einen Link graph / Abhängigkeitsdiagramm erstellen
Viper780 18.05.2025 - 13:57 2334 18
Viper780
ElderEr ist tot, Jim!
|
Ich hab aus einem alten, statischen wiki einen Export von über 1000 html Files. Leider gibts keinen Index mehr und ich weiß nicht wo ich starten soll beim analysieren des Inhaltes.
Ich würde jetzt gerne eine "Karte" mit allen Files erstellen welche die Verlinkungen zwischen den Files darstellen.
Perfekt wäre es wenn alle Pages ohne eingehenden Links hervorgehoben werden.
Kennt wer passende Werkzeuge oder Begriffe nach denen ich suchen kann?
|
Tosca
Here to stay
|
Eventuell mit dem Screaming Frog SEO Spider!
|
Daeda
Here to stay
|
ki? den ordner mit in einer IDE mit zugriff auf copilot & co. öffnen, die files analysieren lassen und dann entweder in unterordner moven oder einen index erstellen lassen. mit den riesigen contexts von gemini 2.5 pro und gpt4.1 sollten die das beide hinbekommen.
|
semteX
hasst die KI
|
ich würd die HTML pages lesen, mit regexp die relativen links holen (die absoluten gehen ja extern) und eine simple datenstruktur ausbauen:
Page X: Incoming A B C, Outgoing D E F G H
und das kannst dann entweder in ascii printen lassn wie richtige männer oder in irgend ein javascript framework pudern welches lustige bubbles und pfeile zeichnet
|
TOM
LegendOldschool OC.at'ler
|
Bearbeitet von TOM am 19.05.2025, 09:40
|
Viper780
ElderEr ist tot, Jim!
|
Eventuell mit dem Screaming Frog SEO Spider! Muss mir das Tool erst anschauen. Eigentlich brauch ich keinen SEO crawler der links verfolgt. Hab nicht mal einen Webserver zur Verfügung (aber der ist schnell gestartet) sondern muss die Files offline analysieren. Aber wer weiß und das Tool kann es (auf der Webseite hab ich dazu abe rnichts gefunden) ki? den ordner mit in einer IDE mit zugriff auf copilot & co. öffnen, die files analysieren lassen und dann entweder in unterordner moven oder einen index erstellen lassen. mit den riesigen contexts von gemini 2.5 pro und gpt4.1 sollten die das beide hinbekommen. Da scheitere ich an der Darstellung und die Menge an Files. Werde mich heute aber nochmal mit VS Code und Copilot dazu setzten ich würd die HTML pages lesen, mit regexp die relativen links holen (die absoluten gehen ja extern) und eine simple datenstruktur ausbauen:
Page X: Incoming A B C, Outgoing D E F G H
und das kannst dann entweder in ascii printen lassn wie richtige männer oder in irgend ein javascript framework pudern welches lustige bubbles und pfeile zeichnet Ja ich will eine Smartscape davon haben! Klickbar, Pfeile damit ich weiß von wo wohin verlinkt wird, gruppiert,... Gibts da nichts fertiges? Den Begriff welchen Du suchst ist "MindMap" Danke - darunter habe ich bisher was anderes Verstanden. So wie ich verstehe analysieren die den Inhalt und machen mir dann deine MindMap. Das klappt bei Anleitungen nicht Hier zwei examples: https://thinkmachine.com/tools/website-to-mindmap https://mindpane.net/
Würd mich wundern, wenn man mit bisserl Recherche nicht das eine oder andere brauchbare Projekt auf GitHub für sowas findet Die brauchen alle eine Website und Crawlen die. Ich brauche etwas das die html files (offline) analysiert. Bisher nichts entsprechendes gefunden
|
Tosca
Here to stay
|
ss mir das Tool erst anschauen. Eigentlich brauch ich keinen SEO crawler der links verfolgt. Hab nicht mal einen Webserver zur Verfügung (aber der ist schnell gestartet) sondern muss die Files offline analysieren. Aber wer weiß und das Tool kann es (auf der Webseite hab ich dazu abe rnichts gefunden) https://www.screamingfrog.co.uk/seo...visualisations/Schaut ziemlich brauchbar aus - du müsstest das nur lokal zum laufen bringen und dem Crawler eine Liste aller URLs geben. Die Free-Version hat aber leider ein paar Limits afaik.
|
DKCH
Administrator ...
|
python mit beautifulsoup drüberlaufen lassen, .dot file generieren und dann spaß mit graphviz? ich meld mich gern als sub-contractor
|
semteX
hasst die KI
|
python mit beautifulsoup drüberlaufen lassen, .dot file generieren und dann spaß mit graphviz? ich meld mich gern als sub-contractor  da fehlt die KI welche *irgendwas* tut.
|
Viper780
ElderEr ist tot, Jim!
|
Powered by DavisDKCH Ai
Ich schau es mir am Abend mal an wie weit ich meinen bescheidenen Python Fähigkeiten komme.
Meine Hoffnung wäre was fertiges gewesen - jetzt schau ich mir dann Toscas Tipp an
|
UnleashThebeast
unsäglicher Prolet
|
Powered by DavisDKCH Ai Powered by Alles Inder?
|
Tosca
Here to stay
|
Ich nehme an du kannst das nicht aus der Hand geben, sonst würde ich den Screaming Frog da schnell drüberlaufen lassen (hab die Pro Version in der Firma). Wenn man beruflich irgendwie mit größeren Webseiten zu tun hat ist das Ding die 200 pro Jahr aber definitiv wert, auch für andere Sachen
|
Viper780
ElderEr ist tot, Jim!
|
Es sind leider Kundendaten - die kann ich nicht mal in eine KI werfen (Github CoPilot damit auch nicht - Tennant grenze geht nur für den aus MS365)
Aber der Screaming Frog SEO Spider ist ein tolles Tool was genau das liefern würde was ich benötige. Nur fehlen mir 2/3 der Daten durch die 500 Links Grenze. Mal schauen ob ich die ~300€ genehmigt bekomme.
Als Crawler sieht er aber nur verlinkte Seiten und zB keine verwaiste Seiten
|
Longbow
Here to stay
|
Wie soll er auch kanten in einem graphen anlegen, wenn die knoten keine verbindungen haben?
|
Viper780
ElderEr ist tot, Jim!
|
Wie soll er auch kanten in einem graphen anlegen, wenn die knoten keine verbindungen haben? Als Eigenständiges Diagramm oder "freischwebende" Knoten Kanten können natürlich nicht dargestellt werden, wenn keine Verbindungen exisiteren Am Filesystem habe ich zugriff auf alle Files und einer vollständigen Liste davon.
|