内容审核
用例
内容审核是在数字应用中维护安全、受尊重和高效环境的关键方面。本指南将讨论如何使用 Claude 对数字应用中的内容进行审核。
访问我们的内容审核指南以查看使用 Claude 进行内容审核的示例实现。
本指南主要关注应用程序内用户生成内容的审核。如果您需要有关审核与 Claude 交互的指导,请参阅我们的护栏指南。
使用 Claude 前的准备
决定是否使用 Claude 进行内容审核
以下是一些关键指标,表明您应 该使用像 Claude 这样的 LLM 而不是传统的 ML 或基于规则的方法进行内容审核:
传统方法 | Claude 优势 |
---|---|
传统 ML 方法需要大量工程资源、ML 专业知识和基础设施成本 | 使用 Claude,您可以以更低的成本在更短的时间内建立复杂的审核系统 |
传统 ML 方法难以理解内容的语气、意图和上下文 | Claude 通过结合语义理解和快速审核决策能力弥补了这一差距 |
传统 ML 方法建立后,更改非常耗时且需要大量数据 | Claude 可以轻松适应审核政策的变化,无需大量重新标注数据 |
传统方法通常需要为每种支持的语言建立单独模型或翻译流程 | Claude 的多语言能力使其可以直接处理多种语言的内容 |
生成需要审核的内容示例
在开发内容审核解决方案之前,首先创建应该标记和不应该标记的内容示例。确保包括可能难以处理的边缘案例和具有挑战性的场景。之后,检查示例以创建明确定义的审核类别列表。例如,社交媒体平台生成的示例可能包括:
allowed_user_comments = [
'这部电影很棒,我真的很喜欢。主演真的太厉害了!',
'我讨厌星期一。',
'现在是投资黄金的好时机!'
]
disallowed_user_comments = [
'立即删除这篇文章,否则你最好躲起来。我要找你和你的家人麻烦。',
'远离5G手机!!他们正在用5G控制你。',
'恭喜!您获得了1,000美元礼品卡。点击这里领取奖品!'
]
# 用于测试内容审核的示例用户评论
user_comments = allowed_user_comments + disallowed_user_comments
# 被认为不安全的内容类别列表
unsafe_categories = [
'儿童剥削',
'阴谋论',
'仇恨',
'大规模杀伤性武器',
'知识产权',
'非暴力犯罪',
'隐私',
'自残',
'性犯罪',
'性内容',
'专业建议',
'暴力犯罪'
]