guarddog-nexus

marker/guarddog-nexus

Fork 0

Commit Graph

Author	SHA1	Message	Date
Marker689	682b340d7d	fix: system prompt — защита от prompt injection (hard gate) - constants.py: новый LLM_ANALYSIS_SYSTEM_PROMPT с защитой от injection - Явное разделение: message = CLAIMS (untrusted), code = FACTS - Инструкция игнорировать user message при конфликте с code/rule - examples/test-prompt-variants.py: тест 3 вариантов промпта - Результат: baseline=safe (обманут), V2/V3=malicious (устояли) - examples/test-prompt-poisoning.py: 4 вектора атаки с оригинальным промптом	2026-05-10 15:34:22 +03:00
Marker689	73a8cb0953	feat: тест prompt poisoning LLM — подтверждена уязвимость - examples/test-prompt-poisoning.py: 4 вектора атаки (message, code, override, encoded) - Результат с GLM47: clean=malicious, poisoned=safe — LLM обманут - Конфиг через env vars (LLM_API_KEY, LLM_API_BASE, LLM_MODEL)	2026-05-10 13:57:33 +03:00
Marker689	11ce9802e9	feat: примеры вредоносных пакетов + E2E-тест + документация - examples/evil-pypi/: exec-base64, shady-links, code-execution, dll-hijacking - examples/evil-npm/: eval, Buffer(base64), shady-links - examples/evil-go/: exec+base64, shady-links - examples/trigger-scans.sh: сборка архивов + Docker cp + вебхуки + проверка - README.md + README.en.md: секция E2E-тестирования с curl-примерами - E2E пройден: pypi(2 findings), npm(1), go(1) — все flagged	2026-05-10 13:13:36 +03:00

Author

SHA1

Message

Date

Marker689

682b340d7d

fix: system prompt — защита от prompt injection (hard gate)

- constants.py: новый LLM_ANALYSIS_SYSTEM_PROMPT с защитой от injection
- Явное разделение: message = CLAIMS (untrusted), code = FACTS
- Инструкция игнорировать user message при конфликте с code/rule
- examples/test-prompt-variants.py: тест 3 вариантов промпта
- Результат: baseline=safe (обманут), V2/V3=malicious (устояли)
- examples/test-prompt-poisoning.py: 4 вектора атаки с оригинальным промптом

2026-05-10 15:34:22 +03:00

Marker689

73a8cb0953

feat: тест prompt poisoning LLM — подтверждена уязвимость

- examples/test-prompt-poisoning.py: 4 вектора атаки (message, code, override, encoded)
- Результат с GLM47: clean=malicious, poisoned=safe — LLM обманут
- Конфиг через env vars (LLM_API_KEY, LLM_API_BASE, LLM_MODEL)

2026-05-10 13:57:33 +03:00

Marker689

11ce9802e9

feat: примеры вредоносных пакетов + E2E-тест + документация

- examples/evil-pypi/: exec-base64, shady-links, code-execution, dll-hijacking
- examples/evil-npm/: eval, Buffer(base64), shady-links
- examples/evil-go/: exec+base64, shady-links
- examples/trigger-scans.sh: сборка архивов + Docker cp + вебхуки + проверка
- README.md + README.en.md: секция E2E-тестирования с curl-примерами
- E2E пройден: pypi(2 findings), npm(1), go(1) — все flagged

2026-05-10 13:13:36 +03:00

3 Commits