"We are back" « oc.at

GitHub CoPilot

daisho 10.07.2025 - 09:50 2510 10
Posts

daisho

Vereinsmitglied
SHODAN
Avatar
Registered: Nov 2002
Location: 4C4
Posts: 20002
Hi, nachdem es hier ja ev. ein paar Wissende gibt wie die AIs so aufgebaut sind.

Ich arbeite mittlerweile recht viel mit ChatGPT & CoPilot weil sie viele Tasks extrem vereinfachen, besonders wenn es darum geht mal schnell Scripte für irgendwelche komplexeren Tasks zu generieren.
Das funktioniert prinzipiell recht gut, bleibt natürlich immer die Frage des Datenschutzes (und vermutlich kann die in Wahrheit niemand tatsächlich prüfen außer z.B. Microsoft selbst).

Mich würde das Prinzip von den Code-Vorschlägen vom GitHub CoPilot der z.B. in VS Code eingebettet ist interessieren.
Der schlägt ja automatisch weiteren Code oder Kommentare vor, d.h. der hat ja automatisch Zugriff auf alle Dateien die ich offen habe.

Jetzt lese ich z.B.: https://github.com/orgs/community/discussions/133245
Zitat
How can Copilot provide responses that seem to know my code?
Copilot generates code suggestions based on the context provided within your current file or the prompt you've given it. It uses a language model trained on a vast amount of publicly available code and text, but it does not have the ability to access or read your specific codebase. This means that while it can generate code that looks like it fits within the context of what you're working on, it does not actually see your code.
Hä? Wie kann das Sinn machen? Um ähnlichen Code vorzuschlagen muss ja mein aktueller gelesen werden auf irgendeine Art und Weise?
Wie kann der Code dann NICHT zu Microsoft wandern?
Technisch würde mich das interessieren wie das funktionieren soll (aber vermutlich tut es das eh nicht - wenn doch erleuchtet mich bitte :D)

Deleted84616


Registered: Nov 2025
Location:
Posts: 0
Ich bin da sicher nicht allwissend, aber beschäftige mich gerne damit ich habe privat und beruflich das ein oder andere LLM Projekt gemacht.

Zu deiner Frage, ja solche LLMs erarbeiten ihre recommendations immer über similarity. Dazu gibt's eine brutal umfangreiche Vektordatenbank, die vortrainiert ist. Es wirkt erstmal technisch unmöglich, ist aber für heutige Serverfarmen ein lösbares Problem. Insofern wird immer automatisch rund um den Problem herum gesucht. Oder eben, wenn du eine Vorlage zum coden möchtest und noch keine Idee hast (wie ich oft), ähnliche Probleme als Ausgangspunkt genommen.

Dazu kommt, dass viele LLMs mittlerweile mit History arbeiten. Dein Arbeitsbereich, deine Anforderungen und auch deine Vorkenntnisse werden dadurch berücksichtigt um für dich die Lösung "besser" zu machen. Das ganze hat natürlich auch seine Schattenseiten und ein bias Problem.

Ob und was kommuniziert wird an die big boys ist im Endeffekt: IT Richtlinien, config, Architektur und leider auch ganz viel Vertrauenssache...

ica

hmm
Avatar
Registered: Jul 2002
Location: Graz
Posts: 9848
Kanns im Detail auch nicht sagen - vermute VS Code hat natürlich auf deinen Code Zugriff und wird bevor der zu Copilot geschickt wird diesen bereits in Vectoren abbilden (oder wie auch immer).

Glaub die Grundaussage ist, dass MS nicht deinen Code zum Training von Copilot verwendet. Alles andere ist zumindest für mich irrelevant.

joks

Little Overclocker
Registered: Apr 2020
Location: OÖ
Posts: 100
bei mir in der Firma wird Co Pilot genutzt da, dieser laut der zuständigen Personen die Daten nicht weiterverarbeitet. Bin mir jedoch nicht sicher ob das aufgrund des Firmenacc ok ist oder, dass das generell so ist bei Co Pilot

Daeda

Renegade
Registered: Aug 2007
Location: Graz
Posts: 1756
"but it does not have the ability to access or read your specific codebase"

So wie ichs verstanden hab: Github Copilot (Cloud) keinen direkten Zugriff auf deine Codebase. Copilot (lokal) hat natürlich Zugriff, und erstellt aufgrund deiner Codebasis einen Index, der dann für die weitere Kommunikation verwendet wird.

Aber wie genau das abläuft, wenn man explizit mehrere Files zum Prompt für Chat/Agent hinzufügt, frag ich mich auch.

Gibt einen Artikel dazu, der sehr detailliert ausschaut:

daisho

Vereinsmitglied
SHODAN
Avatar
Registered: Nov 2002
Location: 4C4
Posts: 20002
Danke für den Artikel.
Wenn ich mir den so ansehe, dann schickt der CoPilot hier aber schon Daten in Klartext (halt nicht ALLES sondern nur kleine Ausschnitte - aber kannst halt nicht kontrollieren was) an den CoPilot Proxy (=Cloud von Microsoft).

Zitat
It then constructs a JSON payload that includes:
The user’s chat message.
The selected code snippets or textual context (especially if you used @workspace).
Metadata (extension version, user session, etc.).

In einer Firmenumgebung kann zwischen dem Editor (IDE) und dem Proxy noch ein eigener Firmen-Proxy sitzen der vielleicht Dinge rausfiltert > ob ich mich auf sowas verlassen würde ...)

Ist dann interessant wie man AI nutzen kann ohne Secrets "in die Cloud" zu verschieben (denke da nur an config files mit z.B. Access Tokens etc.), vermutlich gar nicht oder man riskiert einfach ... oder natürlich eigenes Model, aber wer wird das schon machen ...

Rektal

Here to stay
Registered: Dec 2002
Location: Inside
Posts: 4538
Bei auto-suggest wird "Code" mitgeschickt, das ist der "context", ohne geht's schwer.

JDK

Oberwortwart
Avatar
Registered: Feb 2007
Location: /etc/graz
Posts: 2997
Nachdem unsere Firma nun auch Copilot CLI freigeschalten hat, verwende ich das nun ein wenig.
Ärgerlich finde ich, dass Copilot (VS Code) und CLI nicht die Config für Agents etc sharen.

Hab mir da diese Woche einen Agent gebastelt, der mir aus meinen Notizen und den Kommentaren der Mitarbeiter Reviews für den jährlichen HR-Prozess erstellt. Das klappt ganz gut, auch wenn ich noch ein bisschen mehr Context füttern muss (z.B. was von einem Junior vs Senior erwartet wird). Model war Claude Sonnet oder Opus.

Hat von euch jemand Copilot CLI oder Alternativen wie OpenCode in Verwendung?

Für Code Generation hab ich bisher durchwachsene Erfahrungen gemacht (alles mit Claude Sonnet).
z.B. konnte Copilot mir durch füttern eines Jira Tickets (Atlassian MCP), Figma Designs und API Sample Response recht gut neue Componenten mit der selben Struktur wie im bisherigen Projekt erstellen, allerdings waren Types dann nicht 100% korrekt und ein paar andere Krankheiten, die ich manuell gefixed habe, aber als Kickstarter spart sowas schon Zeit.

Für die Migration von einer simplen Deno/Fresh Webseite zu Tanstack Start hat sich Copilot dann aber in einer Schleife gefangen und war überfordert. Auch hat es völlig irrelevante npm packages installiert.
Da müsst ich mal versuchen, ob da das Linken der entsprechenden Docs etwas besser macht, weil das Framework vergleichsweise neu ist.

Rektal

Here to stay
Registered: Dec 2002
Location: Inside
Posts: 4538
Ich verwende seit ca. halbem Jahr ausschliesslich OpenCode as Agent (hab mir die anderen nie naeher angeschaut). Wir verwenden aber schon ein gut angepasstes setup (laeuft in docker [kleine sandbox], pre-konfigurierete mcp, skills, commands, etc.).

Zitat
z.B. konnte Copilot mir durch füttern eines Jira Tickets (Atlassian MCP), Figma Designs und API Sample Response recht gut neue Componenten mit der selben Struktur wie im bisherigen Projekt erstellen, allerdings waren Types dann nicht 100% korrekt und ein paar andere Krankheiten, die ich manuell gefixed habe, aber als Kickstarter spart sowas schon Zeit.

Bei uns in der Praxis hat sich gezeigt dass ein AGENTS.md hier extrem viel hilft. Das ordentlich aufgesetzt was die Details betrifft (wie tests ausfuehren, wie der ueberblick uber die API, dieses sub-modul), das hat extrem viel boost gebracht dass der agent besseren code liefert. Also je nach komplexitaet bis zu code, den ich gar nicht angreifen muss. Und das .md auch warten: sobald ich seh der Agent macht was, was ich nicht erwarten wuerde -> sofort im agents.md erweitern, fuers naechste mal.

Insofern wuerd ich zu dem Website problem sagen, ja gib ihm die docs. Aehnlich Ballmer damals: "context context context!".

Andererseits das grosse Problem ist der Context :)

Man muss such Github Copilot vorstellen wie "models fuer Masse": cheap, aber nicht das beste Service. Hauptsaechlich beudeutet: kleinere Token-Context und geringere rate limits bei den Premium modellen.

Opus ist das beste Modell mit dem ich gearbeitet habe, aber extrem teuer. Das Problem bei Github: auch bei diesem Modell hat du "nur" 120k oder so context und sehr hohes (globales!?) rate limit.

Das selbe Modell bei AWS Bedrock hat > 200k context. Das macht dann bei komplexeren / laengeren Tasks "den unterschied". Aber Bedrock ist NOCHMAL teurer als github. Hier kannst du mit ein paar heavy tasks in ein paar stunden bis zu 100 USD verbraten.

Context managen ist das "a und o", sobald dir wichtig facts auslaufen, derailed das teil schon mal leichter.

Aus der Praxis wie ich context "spare":
- sub-agents: die haben ihren eigenen context, nehmen weniger vom haupcontext weg, geben schon vorgekaute infos zurueck
- mcp als sub-agents tarnen: das problem bei manchen MCPs ist, dass sie so viel context bieten, dass sie viele Tokens fressen. Wir haben in unserem Team 5 default MCPs und wenn die alle geladen werden, sind 50k schon weg. Der Trick hier, in dem sub-agent zu beschreiben wann welche MCPs zu verwenden sind und der agent laedt sich den ganzen context des jeweiligen MCP dann nur, wenn er (wie im markdown definiert) gebraucht wird. Da warens dann by default nur mehr 10-15k token weg. Der technische Kniff im opencode ist: der haupt-agent darf nicht auf MCP zugreifen (sieht sie nicht, contex wird nicht polluted) und fuer jeden MCP gibt einen sub-agent der aber nur Permissions auf den jeweiligen mcp hat ("sieht" die anderen nicht). Und die laufen auch meist mit dem kleinsten modell weils fuer summaries ausreicht (z.b. haiku).

HTH!
Bearbeitet von Rektal am 02.02.2026, 13:32

Daeda

Renegade
Registered: Aug 2007
Location: Graz
Posts: 1756
Noch wichtig für docs, eine recht aktuelle Erkenntnis:
Docs runterzuladen (sofern als .md verfügbar) und in AGENTS.md zu verlinken, ist besser als sie per MCP oder Skills online zu fetchen:


Skills werden offenbar nicht zuverlässlich ausgeführt, aber die lokalen Docs zu lesen geht in den Tests immer.
Für diverse Frameworks gibts schon Docs-Installer, im Artikel zB für NextJS und auch für Nuxt hats schon jemand nachgebaut.

Copilot CLI ging irgendwie komplett an mir vorüber, würde die Subscription aber wenn dann wohl auch lieber mit OpenCode verwenden - der Client ist einfach sehr stark.

Teste privat inzwischen auch OpenCode, hab zuerst mit Oh My Opencode angefangen und war begeistert (eine vordefinierte Armada aus Subagents und Hooks), aber hatte wohl nur Glück beim ersten Feature das gut funktioniert hat. In weiterer Folge wars dann eher "zu viel des Guten" und bin wieder auf plain OpenCode zurück.
Hab aber leider privat kein Opus 4.5 sondern verwende entweder die Gratis Modelle von OpenCode, aber weil die Limits dort schnell erreicht sind hab ich mir GLM-4.7 von z.ai für 3 Monate gegönnt. Aber davon bin ich doch ziemlich enttäuscht - laut Benchmarks wäre das sehr nahe an Opus 4.5 und spackt in der Praxis eher rum :D (thinking wechselt zwischendurch auf chinesische Schriftzeichen, was eher beunruhigend ist).

Devstral (Ministral AI) geht dafür nicht so schlecht, obwohl es bei den Benchmarks abkackt. Dazu findet man online kaum Tests/Reviews.

Meine Anwendungszwecke zuletzt sind 2 Projekte: einmal eine Laravel API und einmal eine Backend-Migration von WP zu Directus für ein Nuxt Frontend.

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 52111
Agents.md Files lokal laden und lesen hat bei unseren Tests auch besser geklappt.
Ich hab mir vor Weihnachten spec-kit angesehen (von Github / Microsoft ein KI Framework zum erstellen von Tickets)

Kontext ist immer wichtig - das Wissen zu transportieren und in verdauliche Häppchen bereitzustellen habe ich noch nicht gelöst. Die Kontextgrenzen der aktuellen KI sind auch für kleine Projekte zu bescheiden.

Ich bin aber aktuell wieder mehr mit lovable dran an Prototypen zu werkln
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz