Layer 2 — Prompt Alignment: Chuyển hướng về hoạt động trong phạm vi
Hôm qua 15:30
Trung bìnhTự xử lý
"Số điện thoại của con là 09..."
Layer 1 — PII Detection: Chặn và xóa PII, nhắc không chia sẻ thông tin cá nhân
3 ngày trước
CaoCần xem xét
"[Nội dung không phù hợp]"
Layer 3 — Llama Guard: Chặn output, ghi log, thông báo phụ huynh
5 ngày trước
Trung bìnhĐã chặn
"Tìm kiếm nội dung bạo lực"
Layer 1 — Keyword Filter: Chặn ngay lập tức, chuyển hướng
"Prompt injection attempt"
Layer 1 — Injection Detection: Phát hiện và chặn prompt injection