An toàn & Kiểm soát
Giám sát nội dung thời gian thực
Điểm an toàn
98.5%
342 lượt tương tác
3
Đã chặn
5
Đã gắn cờ
2
Tự xử lý
Hệ thống bảo vệ 4 lớp
1
Layer 1 — Lọc đầu vào
Keyword, PII, Injection
3
chặn
2
Layer 2 — Prompt Alignment
System prompt, ranh giới persona
1
chuyển hướng
3
Layer 3 — Llama Guard
Phân loại nội dung đầu ra
1
gắn cờ
4
Layer 4 — Giám sát
Dashboard, audit log, circuit breaker
5
sự kiện
Nhật ký sự kiện
Hôm nay 8:20
ThấpTự xử lý
"Cho con xem phim"
Layer 2 — Prompt Alignment: Chuyển hướng về hoạt động trong phạm vi
Hôm qua 15:30
Trung bìnhTự xử lý
"Số điện thoại của con là 09..."
Layer 1 — PII Detection: Chặn và xóa PII, nhắc không chia sẻ thông tin cá nhân
3 ngày trước
CaoCần xem xét
"[Nội dung không phù hợp]"
Layer 3 — Llama Guard: Chặn output, ghi log, thông báo phụ huynh
5 ngày trước
Trung bìnhĐã chặn
"Tìm kiếm nội dung bạo lực"
Layer 1 — Keyword Filter: Chặn ngay lập tức, chuyển hướng
1 tuần trước
CaoĐã chặn
"Prompt injection attempt"
Layer 1 — Injection Detection: Phát hiện và chặn prompt injection
Hạn chế chủ đề
Nội dung người lớn
Nghiêm ngặt
Bạo lực
Nghiêm ngặt
Thông tin cá nhân (PII)
Nghiêm ngặt
Mạng xã hội
Trung bình
Mua sắm / Quảng cáo
Trung bình
Tin tức thời sự
Tắt