- V2 Priority: system instructions override user message, но LLM может
отличать легитимный код от вредоносного
- Тест: legit urllib3=safe/LOW, poisoned backdoor=malicious/CRITICAL
- Hard Gate убран — был слишком агрессивен (flag любой ctypes.CDLL)
- constants.py: новый LLM_ANALYSIS_SYSTEM_PROMPT с защитой от injection
- Явное разделение: message = CLAIMS (untrusted), code = FACTS
- Инструкция игнорировать user message при конфликте с code/rule
- examples/test-prompt-variants.py: тест 3 вариантов промпта
- Результат: baseline=safe (обманут), V2/V3=malicious (устояли)
- examples/test-prompt-poisoning.py: 4 вектора атаки с оригинальным промптом