GitHub CoPilot

daisho

Vereinsmitglied
SHODAN

Registered: Nov 2002
Location: 4C4
Posts: 19880

10.07.2025 - 09:50

Hi, nachdem es hier ja ev. ein paar Wissende gibt wie die AIs so aufgebaut sind.

Ich arbeite mittlerweile recht viel mit ChatGPT & CoPilot weil sie viele Tasks extrem vereinfachen, besonders wenn es darum geht mal schnell Scripte für irgendwelche komplexeren Tasks zu generieren.
Das funktioniert prinzipiell recht gut, bleibt natürlich immer die Frage des Datenschutzes (und vermutlich kann die in Wahrheit niemand tatsächlich prüfen außer z.B. Microsoft selbst).

Mich würde das Prinzip von den Code-Vorschlägen vom GitHub CoPilot der z.B. in VS Code eingebettet ist interessieren.
Der schlägt ja automatisch weiteren Code oder Kommentare vor, d.h. der hat ja automatisch Zugriff auf alle Dateien die ich offen habe.

Jetzt lese ich z.B.: https://github.com/orgs/community/discussions/133245

Zitat
How can Copilot provide responses that seem to know my code?
Copilot generates code suggestions based on the context provided within your current file or the prompt you've given it. It uses a language model trained on a vast amount of publicly available code and text, but it does not have the ability to access or read your specific codebase. This means that while it can generate code that looks like it fits within the context of what you're working on, it does not actually see your code.

Hä? Wie kann das Sinn machen? Um ähnlichen Code vorzuschlagen muss ja mein aktueller gelesen werden auf irgendeine Art und Weise?
Wie kann der Code dann NICHT zu Microsoft wandern?
Technisch würde mich das interessieren wie das funktionieren soll (aber vermutlich tut es das eh nicht - wenn doch erleuchtet mich bitte

)

Dune

Kapitän meiner Badewanne

Registered: Jan 2002
Location: Wien
Posts: 10620

10.07.2025 - 10:04

Ich bin da sicher nicht allwissend, aber beschäftige mich gerne damit ich habe privat und beruflich das ein oder andere LLM Projekt gemacht.

Zu deiner Frage, ja solche LLMs erarbeiten ihre recommendations immer über similarity. Dazu gibt's eine brutal umfangreiche Vektordatenbank, die vortrainiert ist. Es wirkt erstmal technisch unmöglich, ist aber für heutige Serverfarmen ein lösbares Problem. Insofern wird immer automatisch rund um den Problem herum gesucht. Oder eben, wenn du eine Vorlage zum coden möchtest und noch keine Idee hast (wie ich oft), ähnliche Probleme als Ausgangspunkt genommen.

Dazu kommt, dass viele LLMs mittlerweile mit History arbeiten. Dein Arbeitsbereich, deine Anforderungen und auch deine Vorkenntnisse werden dadurch berücksichtigt um für dich die Lösung "besser" zu machen. Das ganze hat natürlich auch seine Schattenseiten und ein bias Problem.

Ob und was kommuniziert wird an die big boys ist im Endeffekt: IT Richtlinien, config, Architektur und leider auch ganz viel Vertrauenssache...

ica

hmm

Registered: Jul 2002
Location: Graz
Posts: 9842

10.07.2025 - 10:06

Kanns im Detail auch nicht sagen - vermute VS Code hat natürlich auf deinen Code Zugriff und wird bevor der zu Copilot geschickt wird diesen bereits in Vectoren abbilden (oder wie auch immer).

Glaub die Grundaussage ist, dass MS nicht deinen Code zum Training von Copilot verwendet. Alles andere ist zumindest für mich irrelevant.

joks

Bloody Newbie

Registered: Apr 2020
Location: OÖ
Posts: 38

10.07.2025 - 10:42

bei mir in der Firma wird Co Pilot genutzt da, dieser laut der zuständigen Personen die Daten nicht weiterverarbeitet. Bin mir jedoch nicht sicher ob das aufgrund des Firmenacc ok ist oder, dass das generell so ist bei Co Pilot

Daeda

Here to stay

Registered: Aug 2007
Location: Graz
Posts: 1653

10.07.2025 - 12:03

"but it does not have the ability to access or read your specific codebase"

So wie ichs verstanden hab: Github Copilot (Cloud) keinen direkten Zugriff auf deine Codebase. Copilot (lokal) hat natürlich Zugriff, und erstellt aufgrund deiner Codebasis einen Index, der dann für die weitere Kommunikation verwendet wird.

Aber wie genau das abläuft, wenn man explizit mehrere Files zum Prompt für Chat/Agent hinzufügt, frag ich mich auch.

Gibt einen Artikel dazu, der sehr detailliert ausschaut:

GitHub Copilot Chat Explained: The Life of a Prompt | All things Azure

Ever wondered what happens behind the scenes when you chat with GitHub Copilot in VS Code? Let's pull back the curtain and explore how this AI coding

Link: devblogs.microsoft.com

daisho

Vereinsmitglied
SHODAN

Registered: Nov 2002
Location: 4C4
Posts: 19880

10.07.2025 - 12:57

Danke für den Artikel.
Wenn ich mir den so ansehe, dann schickt der CoPilot hier aber schon Daten in Klartext (halt nicht ALLES sondern nur kleine Ausschnitte - aber kannst halt nicht kontrollieren was) an den CoPilot Proxy (=Cloud von Microsoft).

Zitat
It then constructs a JSON payload that includes:
The user’s chat message.
The selected code snippets or textual context (especially if you used @workspace).
Metadata (extension version, user session, etc.).

In einer Firmenumgebung kann zwischen dem Editor (IDE) und dem Proxy noch ein eigener Firmen-Proxy sitzen der vielleicht Dinge rausfiltert > ob ich mich auf sowas verlassen würde ...)

Ist dann interessant wie man AI nutzen kann ohne Secrets "in die Cloud" zu verschieben (denke da nur an config files mit z.B. Access Tokens etc.), vermutlich gar nicht oder man riskiert einfach ... oder natürlich eigenes Model, aber wer wird das schon machen ...

Rektal

Here to stay

Registered: Dec 2002
Location: Inside
Posts: 4517

10.07.2025 - 13:26

Bei auto-suggest wird "Code" mitgeschickt, das ist der "context", ohne geht's schwer.

daisho Vereinsmitglied SHODAN Registered: Nov 2002 Location: 4C4 Posts: 19880	10.07.2025 - 09:50 Hi, nachdem es hier ja ev. ein paar Wissende gibt wie die AIs so aufgebaut sind. Ich arbeite mittlerweile recht viel mit ChatGPT & CoPilot weil sie viele Tasks extrem vereinfachen, besonders wenn es darum geht mal schnell Scripte für irgendwelche komplexeren Tasks zu generieren. Das funktioniert prinzipiell recht gut, bleibt natürlich immer die Frage des Datenschutzes (und vermutlich kann die in Wahrheit niemand tatsächlich prüfen außer z.B. Microsoft selbst). Mich würde das Prinzip von den Code-Vorschlägen vom GitHub CoPilot der z.B. in VS Code eingebettet ist interessieren. Der schlägt ja automatisch weiteren Code oder Kommentare vor, d.h. der hat ja automatisch Zugriff auf alle Dateien die ich offen habe. Jetzt lese ich z.B.: https://github.com/orgs/community/discussions/133245 Zitat How can Copilot provide responses that seem to know my code? Copilot generates code suggestions based on the context provided within your current file or the prompt you've given it. It uses a language model trained on a vast amount of publicly available code and text, but it does not have the ability to access or read your specific codebase. This means that while it can generate code that looks like it fits within the context of what you're working on, it does not actually see your code. Hä? Wie kann das Sinn machen? Um ähnlichen Code vorzuschlagen muss ja mein aktueller gelesen werden auf irgendeine Art und Weise? Wie kann der Code dann NICHT zu Microsoft wandern? Technisch würde mich das interessieren wie das funktionieren soll (aber vermutlich tut es das eh nicht - wenn doch erleuchtet mich bitte )
Dune Kapitän meiner Badewanne Registered: Jan 2002 Location: Wien Posts: 10620	10.07.2025 - 10:04 Ich bin da sicher nicht allwissend, aber beschäftige mich gerne damit ich habe privat und beruflich das ein oder andere LLM Projekt gemacht. Zu deiner Frage, ja solche LLMs erarbeiten ihre recommendations immer über similarity. Dazu gibt's eine brutal umfangreiche Vektordatenbank, die vortrainiert ist. Es wirkt erstmal technisch unmöglich, ist aber für heutige Serverfarmen ein lösbares Problem. Insofern wird immer automatisch rund um den Problem herum gesucht. Oder eben, wenn du eine Vorlage zum coden möchtest und noch keine Idee hast (wie ich oft), ähnliche Probleme als Ausgangspunkt genommen. Dazu kommt, dass viele LLMs mittlerweile mit History arbeiten. Dein Arbeitsbereich, deine Anforderungen und auch deine Vorkenntnisse werden dadurch berücksichtigt um für dich die Lösung "besser" zu machen. Das ganze hat natürlich auch seine Schattenseiten und ein bias Problem. Ob und was kommuniziert wird an die big boys ist im Endeffekt: IT Richtlinien, config, Architektur und leider auch ganz viel Vertrauenssache...
ica hmm Registered: Jul 2002 Location: Graz Posts: 9842	10.07.2025 - 10:06 Kanns im Detail auch nicht sagen - vermute VS Code hat natürlich auf deinen Code Zugriff und wird bevor der zu Copilot geschickt wird diesen bereits in Vectoren abbilden (oder wie auch immer). Glaub die Grundaussage ist, dass MS nicht deinen Code zum Training von Copilot verwendet. Alles andere ist zumindest für mich irrelevant.
joks Bloody Newbie Registered: Apr 2020 Location: OÖ Posts: 38	10.07.2025 - 10:42 bei mir in der Firma wird Co Pilot genutzt da, dieser laut der zuständigen Personen die Daten nicht weiterverarbeitet. Bin mir jedoch nicht sicher ob das aufgrund des Firmenacc ok ist oder, dass das generell so ist bei Co Pilot
Daeda Here to stay Registered: Aug 2007 Location: Graz Posts: 1653	10.07.2025 - 12:03 "but it does not have the ability to access or read your specific codebase" So wie ichs verstanden hab: Github Copilot (Cloud) keinen direkten Zugriff auf deine Codebase. Copilot (lokal) hat natürlich Zugriff, und erstellt aufgrund deiner Codebasis einen Index, der dann für die weitere Kommunikation verwendet wird. Aber wie genau das abläuft, wenn man explizit mehrere Files zum Prompt für Chat/Agent hinzufügt, frag ich mich auch. Gibt einen Artikel dazu, der sehr detailliert ausschaut: GitHub Copilot Chat Explained: The Life of a Prompt \| All things Azure Ever wondered what happens behind the scenes when you chat with GitHub Copilot in VS Code? Let's pull back the curtain and explore how this AI coding Link: devblogs.microsoft.com
daisho Vereinsmitglied SHODAN Registered: Nov 2002 Location: 4C4 Posts: 19880	10.07.2025 - 12:57 Danke für den Artikel. Wenn ich mir den so ansehe, dann schickt der CoPilot hier aber schon Daten in Klartext (halt nicht ALLES sondern nur kleine Ausschnitte - aber kannst halt nicht kontrollieren was) an den CoPilot Proxy (=Cloud von Microsoft). Zitat It then constructs a JSON payload that includes: The user’s chat message. The selected code snippets or textual context (especially if you used @workspace). Metadata (extension version, user session, etc.). In einer Firmenumgebung kann zwischen dem Editor (IDE) und dem Proxy noch ein eigener Firmen-Proxy sitzen der vielleicht Dinge rausfiltert > ob ich mich auf sowas verlassen würde ...) Ist dann interessant wie man AI nutzen kann ohne Secrets "in die Cloud" zu verschieben (denke da nur an config files mit z.B. Access Tokens etc.), vermutlich gar nicht oder man riskiert einfach ... oder natürlich eigenes Model, aber wer wird das schon machen ...
Rektal Here to stay Registered: Dec 2002 Location: Inside Posts: 4517	10.07.2025 - 13:26 Bei auto-suggest wird "Code" mitgeschickt, das ist der "context", ohne geht's schwer.

GitHub CoPilot

Forum Index > Software > Artificial Intelligence

daisho

Dune

ica

joks

Daeda

daisho

Rektal