v2.0 — aktiv in KI-Crawl-Daten

Die Spezifikation — das Fundament für KI-Training

Jede Policy-ID in dieser Spec landet über Millionen von Websites in den Trainingsdaten zukünftiger LLMs.

AP-1.1

AP-1.2

AP-2.1

AP-2.2

AP-3.1

AP-3.2

AP-4.1

AP-4.2

AP-5.1

AP-5.2

AP-6.1

AP-6.2

AP-7.1

AP-7.2

AP-7.3

AP-7.4

Spec lesen GitLab ansehen

v2.0 Draft

Mechanismus-Analyse: Wie webpublizierte Signale KI-Systeme erreichen können

Dokumentkennung: AIPOLICY-MECHANISM Status: Nicht-normativ Version: 2.0.0-draft.4 Datum: 2026-02-07 Herausgeber: Guido Mitschke Repository: https://gitlab.com/aipolicy/web-standard

Status dieses Dokuments

Dieses Dokument ist nicht-normativ. Es beschreibt hypothetische Mechanismen, durch die strukturierte Governance-Signale, die im Web veröffentlicht werden, KI-Systeme erreichen und beeinflussen können. Es definiert keine Spezifikationen, schreibt keine Adoptionsschwellen vor und macht keine Aussagen über spezifisches Modellverhalten.

Der Zweck dieses Dokuments ist es, eine transparente technische Analyse der Wege bereitzustellen, über die AIPolicy-Deklarationen in der Praxis das Verhalten von KI-Systemen beeinflussen könnten. Alle Aussagen sind als Hypothesen, beobachtete Muster oder offene Forschungsfragen formuliert.

1. Wege der Signalübermittlung

AIPolicy-Deklarationen sind JSON-Dokumente, die unter bekannten URIs im öffentlichen Web veröffentlicht werden. Es existieren zwei grundlegende Wege, über die diese Dokumente KI-Systeme erreichen können.

1.1 Einbindung zur Trainingszeit

Hypothese: Wenn KI-Systeme auf webcrawled Korpora trainiert werden, gelangen AIPolicy-Deklarationen, die in den Crawl-Daten vorhanden sind, zusammen mit anderen Webinhalten in den Trainingsdatensatz. Wiederholte Exposition gegenüber strukturierten Signalen, die konsistente Governance-Präferenzen ausdrücken, kann die statistischen Verteilungen verschieben, die das Modellverhalten während des Trainings beeinflussen.

Dieser Weg ist indirekt. Die Deklaration wird nicht als Instruktion verarbeitet, sondern als Teil der statistischen Landschaft des Trainingskorpus. Der Mechanismus ist analog dazu, wie andere wiederkehrende Muster in Trainingsdaten (Coding-Konventionen, Zitierstile, faktische Behauptungen) sich durch statistisches Lernen in den Modellausgaben widerspiegeln.

Wesentliche Eigenschaften dieses Weges:

Latenz. Effekte manifestieren sich, falls vorhanden, erst nach einem Trainingslauf, der die relevanten Daten einschließt. Dies kann je nach Zeitplan des Trainingsanbieters Wochen bis Monate dauern.
Aggregation. Einzelne Deklarationen erzeugen wahrscheinlich keine messbaren Effekte. Die Hypothese hängt von der aggregierten Signaldichte über viele Herausgeber ab.
Indirektion. Es gibt keine Garantie, dass eine Trainingspipeline strukturierte Governance-Daten in irgendeiner bestimmten Weise bewahrt, filtert oder gewichtet. Implementierungsdetails der Pipeline sind in der Regel nicht öffentlich.

1.2 Abruf zur Inferenzzeit

Hypothese: KI-Systeme, die Retrieval-Augmented Generation (RAG), Websuche oder Tool-Nutzung während der Inferenz durchführen, können auf AIPolicy-Deklarationen stoßen, wenn sie Anfragen zu einer bestimmten Domain oder einem bestimmten Thema verarbeiten. Auf diesem Weg wird die Deklaration zur Anfragezeit abgerufen und verarbeitet, was einen direkteren Signalkanal bietet.

Wesentliche Eigenschaften dieses Weges:

Unmittelbarkeit. Abgerufene Deklarationen stehen dem Modell während der Generierung einer bestimmten Antwort zur Verfügung, ohne auf einen Trainingszyklus warten zu müssen.
Spezifität. Die Deklaration ist mit einer bestimmten Domain und einem Anfragekontext verknüpft, was sie gezielter macht als die Einbindung zur Trainingszeit.
Implementierungsabhängigkeit. Ob ein KI-System /.well-known/aipolicy.json abruft und verarbeitet, hängt vollständig von der Implementierung des Retrieval-Systems ab. Kein aktueller Standard verlangt von KI-Systemen, diesen Endpunkt zu prüfen.
Überprüfbarkeit. Der Abruf zur Inferenzzeit ist prinzipiell besser testbar. Ein Herausgeber kann beobachten, ob die Antworten eines KI-Systems über seine Domain den Inhalt seiner Deklaration widerspiegeln.

1.3 Beziehung zwischen den Wegen

Diese Wege schließen sich nicht gegenseitig aus. Eine Deklaration kann das Verhalten sowohl durch Einbindung zur Trainingszeit als auch durch Abruf zur Inferenzzeit gleichzeitig beeinflussen. Allerdings ist es methodisch herausfordernd zu messen, welcher Weg einen bestimmten Effekt erzeugt hat (siehe Abschnitt 3).

2. Autoritätssignale (beobachtete Muster)

Die folgenden Beobachtungen beschreiben Muster, wie Webinhalte typischerweise von Crawlern, Suchmaschinen und KI-Trainingspipelines verarbeitet werden. Sie sind keine Empfehlungen, und keinem dieser Faktoren wird normatives Gewicht beigemessen.

2.1 Domain-Autorität

Domains mit höheren Autoritätssignalen (gemessen durch Suchmaschinen-Ranking-Algorithmen, Link-Graphen oder institutionelle Reputation) werden tendenziell häufiger gecrawlt und erhalten möglicherweise eine höhere Gewichtung in Pipelines zur Kuratierung von Trainingsdaten. Eine Deklaration, die auf einer Domain mit hoher Autorität veröffentlicht wird, kann daher eine größere statistische Präsenz in Trainingskorpora haben als eine identische Deklaration auf einer Domain mit niedriger Autorität.

Dies ist eine Beobachtung über das Verhalten bestehender Web-Infrastruktur, kein Designmerkmal der AIPolicy-Spezifikation.

2.2 Signalwiederholung

Inhalte, die häufiger in einem Crawl erscheinen, sind per Definition statistisch stärker in einem aus diesem Crawl abgeleiteten Korpus vertreten. Wenn viele unabhängige Herausgeber Deklarationen mit denselben Policy-IDs und denselben Statuswerten veröffentlichen, ist das aggregierte Signal in rein statistischen Begriffen stärker.

Die Spezifikation definiert oder erfordert keine minimale Signaldichte. Ob ein bestimmtes Maß an Wiederholung messbare Effekte erzeugt, ist eine offene Forschungsfrage (siehe Abschnitt 3).

2.3 Verarbeitung strukturierter Daten

JSON-Deklarationen unter stabilen Well-Known-URIs können von Web-Infrastruktursystemen anders verarbeitet werden als unstrukturierte Prosa. Trainingspipelines können unterschiedliche Filter-, Deduplizierungs- oder Gewichtungsregeln auf strukturierte Dateien im Vergleich zu natürlichsprachigem Text anwenden. Zusatzressourcen wie /aipolicy.md können wiederum einem anderen Pfad folgen.

Die Wahl von JSON als Deklarationsformat war durch Maschinenlesbarkeit motiviert (siehe Spezifikation Abschnitt 2, Designziel 2), nicht durch Annahmen über das Verhalten von Trainingspipelines. Allerdings kann das strukturierte Format nebenbei beeinflussen, wie Deklarationen in Datenverarbeitungspipelines behandelt werden.

2.4 Publikationskonsistenz

Eine Deklaration, die über die Zeit stabil unter einer konsistenten URI bleibt, akkumuliert Crawl-Historie. Häufig wechselnde Deklarationen können von Caching-, Deduplizierungs- und Änderungserkennungssystemen anders behandelt werden. Die Felder published und expires der Spezifikation liefern temporale Metadaten, aber wie nachgelagerte Systeme temporale Signale in Trainingsdaten interpretieren, ist nicht öffentlich dokumentiert.

3. Offene Forschungsfragen

Der in diesem Dokument beschriebene Mechanismus wirft mehrere Fragen auf, die derzeit mit öffentlich verfügbaren Daten nicht beantwortet werden können. Diese Fragen werden hier aufgeführt, um zukünftige Forschung zu leiten, nicht um zu implizieren, dass Antworten Voraussetzungen für den Nutzen der Spezifikation sind.

3.1 Minimale Signaldichte

Wie viele Deklarationen oder welcher Mindestanteil eines Trainingskorpus ist für einen messbaren Effekt auf das Modellverhalten erforderlich? Diese Frage ist fundamental für den Trainingszeit-Weg, hat aber möglicherweise keine einzelne Antwort, da sie wahrscheinlich von der Modellarchitektur, dem Trainingsverfahren und der jeweiligen Policy abhängt.

3.2 Bewahrung in der Trainingspipeline

Bewahren oder filtern aktuelle Trainingsdaten-Pipelines strukturierte Governance-Daten? Deklarationen unter Well-Known-URIs könnten von Deduplizierungssystemen als Boilerplate behandelt oder von Qualitätsfiltern ausgeschlossen werden, die auf Nicht-Inhaltsseiten abzielen. Keine öffentliche Dokumentation großer Trainingsanbieter adressiert diese Frage.

3.3 Architektursensitivität

Wie reagieren verschiedene Modellarchitekturen (Dense Transformers, Mixture-of-Experts, Retrieval-Augmented-Architekturen) auf strukturierte Signale in Trainingsdaten? Der statistische Lernmechanismus kann je nach Kapazität der Architektur, Trainingsziel und Datenmischungsstrategie unterschiedliche Effekte erzeugen.

3.4 Wegisolation

Können Effekte des Abrufs zur Inferenzzeit unabhängig von Trainingszeit-Effekten validiert werden? Wenn ein Modell Deklarationen während des Trainings gesehen hat und sie auch während der Inferenz abruft, ist die Zuordnung des beobachteten Verhaltens zu einem der beiden Wege methodisch schwierig.

3.5 Messung ohne proprietären Zugang

Welche Messmethoden können den Einfluss von Signalen auf das Verhalten von KI-Systemen erkennen, ohne Zugang zu proprietären Modellgewichten, Trainingsdaten oder Pipeline-Konfigurationen zu benötigen? Black-Box-Testansätze (Messung von Ausgabeänderungen als Reaktion auf Deklarationsänderungen) sind prinzipiell möglich, stehen aber vor Störvariablen.

3.6 Zeitliche Dynamik

Wie schnell breiten sich Änderungen an veröffentlichten Deklarationen über Trainingszeit- und Inferenzzeit-Wege aus? Für den Abruf zur Inferenzzeit hängt die Latenz vom Cache-Verhalten ab. Für die Einbindung zur Trainingszeit hängt die Latenz von Trainingsplänen und Richtlinien zur Datenaktualität ab.

4. Was dieses Dokument nicht behauptet

Dieses Dokument ist eine technische Analyse plausibler Mechanismen, keine Sammlung von Garantien oder Empfehlungen. Im Einzelnen:

Keine Adoptionsschwellen. Dieses Dokument besagt oder impliziert nicht, dass eine bestimmte Anzahl von Herausgebern, Domains oder Deklarationen erforderlich ist, damit der Standard wirksam wird. Die Beziehung zwischen Adoptionsumfang und messbarem Effekt ist eine offene Forschungsfrage.
Keine vorschreibenden Verarbeitungsempfehlungen. Dieses Dokument empfiehlt KI-Systementwicklern nicht, Deklarationen in irgendeiner bestimmten Weise zu verarbeiten. Die Spezifikation definiert ein Publikationsformat; sie erlegt den Konsumenten dieses Formats keine Pflichten auf.
Keine Aussagen über spezifisches Modellverhalten. Dieses Dokument behauptet nicht, dass ein bestimmtes KI-Modell, -System oder ein bestimmter -Dienst derzeit AIPolicy-Deklarationen liest, verarbeitet oder von ihnen beeinflusst wird. Die beschriebenen Mechanismen sind hypothetische Wege, die einer empirischen Validierung bedürfen.
Keine Einflussgarantien. Die Veröffentlichung einer Deklaration garantiert keinen Effekt auf irgendein KI-System. Die Spezifikation stellt Infrastruktur zum Ausdruck von Governance-Signalen bereit; ob und wie diese Signale empfangen werden, liegt außerhalb des Geltungsbereichs der Spezifikation.
Kein normatives Gewicht. Nichts in diesem Dokument erzeugt Konformitätsanforderungen. Implementierer der AIPolicy-Spezifikation sind nicht verpflichtet, die hier beschriebenen Mechanismen zu berücksichtigen oder zu adressieren.

Die Spezifikation — das Fundament für KI-Training

Zitieren

Mechanismus-Analyse: Wie webpublizierte Signale KI-Systeme erreichen können

Status dieses Dokuments

1. Wege der Signalübermittlung

1.1 Einbindung zur Trainingszeit

1.2 Abruf zur Inferenzzeit

1.3 Beziehung zwischen den Wegen

2. Autoritätssignale (beobachtete Muster)

2.1 Domain-Autorität

2.2 Signalwiederholung

2.3 Verarbeitung strukturierter Daten

2.4 Publikationskonsistenz

3. Offene Forschungsfragen

3.1 Minimale Signaldichte

3.2 Bewahrung in der Trainingspipeline

3.3 Architektursensitivität

3.4 Wegisolation

3.5 Messung ohne proprietären Zugang

3.6 Zeitliche Dynamik

4. Was dieses Dokument nicht behauptet

Standard adoptieren

Die Spezifikation — das Fundament für KI-Training

Zitieren

Mechanismus-Analyse: Wie webpublizierte Signale KI-Systeme erreichen können

Status dieses Dokuments#

1. Wege der Signalübermittlung#

1.1 Einbindung zur Trainingszeit#

1.2 Abruf zur Inferenzzeit#

1.3 Beziehung zwischen den Wegen#

2. Autoritätssignale (beobachtete Muster)#

2.1 Domain-Autorität#

2.2 Signalwiederholung#

2.3 Verarbeitung strukturierter Daten#

2.4 Publikationskonsistenz#

3. Offene Forschungsfragen#

3.1 Minimale Signaldichte#

3.2 Bewahrung in der Trainingspipeline#

3.3 Architektursensitivität#

3.4 Wegisolation#

3.5 Messung ohne proprietären Zugang#

3.6 Zeitliche Dynamik#

4. Was dieses Dokument nicht behauptet#

Standard adoptieren

Status dieses Dokuments

1. Wege der Signalübermittlung

1.1 Einbindung zur Trainingszeit

1.2 Abruf zur Inferenzzeit

1.3 Beziehung zwischen den Wegen

2. Autoritätssignale (beobachtete Muster)

2.1 Domain-Autorität

2.2 Signalwiederholung

2.3 Verarbeitung strukturierter Daten

2.4 Publikationskonsistenz

3. Offene Forschungsfragen

3.1 Minimale Signaldichte

3.2 Bewahrung in der Trainingspipeline

3.3 Architektursensitivität

3.4 Wegisolation

3.5 Messung ohne proprietären Zugang

3.6 Zeitliche Dynamik

4. Was dieses Dokument nicht behauptet