GitHub CoPilot
daisho 10.07.2025 - 09:50 331 6
daisho
VereinsmitgliedSHODAN
|
Hi, nachdem es hier ja ev. ein paar Wissende gibt wie die AIs so aufgebaut sind. Ich arbeite mittlerweile recht viel mit ChatGPT & CoPilot weil sie viele Tasks extrem vereinfachen, besonders wenn es darum geht mal schnell Scripte für irgendwelche komplexeren Tasks zu generieren. Das funktioniert prinzipiell recht gut, bleibt natürlich immer die Frage des Datenschutzes (und vermutlich kann die in Wahrheit niemand tatsächlich prüfen außer z.B. Microsoft selbst). Mich würde das Prinzip von den Code-Vorschlägen vom GitHub CoPilot der z.B. in VS Code eingebettet ist interessieren. Der schlägt ja automatisch weiteren Code oder Kommentare vor, d.h. der hat ja automatisch Zugriff auf alle Dateien die ich offen habe. Jetzt lese ich z.B.: https://github.com/orgs/community/discussions/133245How can Copilot provide responses that seem to know my code? Copilot generates code suggestions based on the context provided within your current file or the prompt you've given it. It uses a language model trained on a vast amount of publicly available code and text, but it does not have the ability to access or read your specific codebase. This means that while it can generate code that looks like it fits within the context of what you're working on, it does not actually see your code. Hä? Wie kann das Sinn machen? Um ähnlichen Code vorzuschlagen muss ja mein aktueller gelesen werden auf irgendeine Art und Weise? Wie kann der Code dann NICHT zu Microsoft wandern? Technisch würde mich das interessieren wie das funktionieren soll (aber vermutlich tut es das eh nicht - wenn doch erleuchtet mich bitte  )
|
Dune
Kapitän meiner Badewanne
|
Ich bin da sicher nicht allwissend, aber beschäftige mich gerne damit ich habe privat und beruflich das ein oder andere LLM Projekt gemacht.
Zu deiner Frage, ja solche LLMs erarbeiten ihre recommendations immer über similarity. Dazu gibt's eine brutal umfangreiche Vektordatenbank, die vortrainiert ist. Es wirkt erstmal technisch unmöglich, ist aber für heutige Serverfarmen ein lösbares Problem. Insofern wird immer automatisch rund um den Problem herum gesucht. Oder eben, wenn du eine Vorlage zum coden möchtest und noch keine Idee hast (wie ich oft), ähnliche Probleme als Ausgangspunkt genommen.
Dazu kommt, dass viele LLMs mittlerweile mit History arbeiten. Dein Arbeitsbereich, deine Anforderungen und auch deine Vorkenntnisse werden dadurch berücksichtigt um für dich die Lösung "besser" zu machen. Das ganze hat natürlich auch seine Schattenseiten und ein bias Problem.
Ob und was kommuniziert wird an die big boys ist im Endeffekt: IT Richtlinien, config, Architektur und leider auch ganz viel Vertrauenssache...
|
ica
hmm
|
Kanns im Detail auch nicht sagen - vermute VS Code hat natürlich auf deinen Code Zugriff und wird bevor der zu Copilot geschickt wird diesen bereits in Vectoren abbilden (oder wie auch immer).
Glaub die Grundaussage ist, dass MS nicht deinen Code zum Training von Copilot verwendet. Alles andere ist zumindest für mich irrelevant.
|
joks
Bloody Newbie
|
bei mir in der Firma wird Co Pilot genutzt da, dieser laut der zuständigen Personen die Daten nicht weiterverarbeitet. Bin mir jedoch nicht sicher ob das aufgrund des Firmenacc ok ist oder, dass das generell so ist bei Co Pilot
|
Daeda
Here to stay
|
"but it does not have the ability to access or read your specific codebase" So wie ichs verstanden hab: Github Copilot (Cloud) keinen direkten Zugriff auf deine Codebase. Copilot (lokal) hat natürlich Zugriff, und erstellt aufgrund deiner Codebasis einen Index, der dann für die weitere Kommunikation verwendet wird. Aber wie genau das abläuft, wenn man explizit mehrere Files zum Prompt für Chat/Agent hinzufügt, frag ich mich auch. Gibt einen Artikel dazu, der sehr detailliert ausschaut: GitHub Copilot Chat Explained: The Life of a Prompt | All things AzureEver wondered what happens behind the scenes when you chat with GitHub Copilot in VS Code? Let's pull back the curtain and explore how this AI coding Link: devblogs.microsoft.com
|
daisho
VereinsmitgliedSHODAN
|
Danke für den Artikel. Wenn ich mir den so ansehe, dann schickt der CoPilot hier aber schon Daten in Klartext (halt nicht ALLES sondern nur kleine Ausschnitte - aber kannst halt nicht kontrollieren was) an den CoPilot Proxy (=Cloud von Microsoft). It then constructs a JSON payload that includes: The user’s chat message. The selected code snippets or textual context (especially if you used @workspace). Metadata (extension version, user session, etc.). In einer Firmenumgebung kann zwischen dem Editor (IDE) und dem Proxy noch ein eigener Firmen-Proxy sitzen der vielleicht Dinge rausfiltert > ob ich mich auf sowas verlassen würde ...) Ist dann interessant wie man AI nutzen kann ohne Secrets "in die Cloud" zu verschieben (denke da nur an config files mit z.B. Access Tokens etc.), vermutlich gar nicht oder man riskiert einfach ... oder natürlich eigenes Model, aber wer wird das schon machen ...
|
Rektal
Here to stay
|
Bei auto-suggest wird "Code" mitgeschickt, das ist der "context", ohne geht's schwer.
|