feat: add server rule violation detection and compress prompts

- LLM now evaluates messages against numbered server rules and reports violated_rules in analysis output - Warnings and mutes cite the specific rule(s) broken - Rules extracted to prompts/rules.txt for prompt injection - Personality prompts moved to prompts/personalities/ and compressed (~63% reduction across all prompt files) - All prompt files tightened: removed redundancy, consolidated Do NOT sections, trimmed examples while preserving behavioral instructions Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-27 22:14:35 -05:00
parent ed51db527c
commit bf32a9536a
22 changed files with 230 additions and 293 deletions
--- a/cogs/sentiment/actions.py
+++ b/cogs/sentiment/actions.py
@@ -13,6 +13,7 @@ logger = logging.getLogger("bcs.sentiment")
 async def mute_user(
    bot, message: discord.Message, score: float,
    categories: list[str], db_message_id: int | None, dirty_users: set[int],
+    violated_rules: list[int] | None = None, rules_config: dict | None = None,
 ):
    member = message.author
    if not isinstance(member, discord.Member):
@@ -43,14 +44,25 @@ async def mute_user(
    messages_config = bot.config.get("messages", {})
    cat_str = ", ".join(c for c in categories if c != "none") or "general negativity"

+    # Build rule citation text
+    rules_text = ""
+    if violated_rules and rules_config:
+        rule_lines = [f"Rule {r}: {rules_config[r]}" for r in violated_rules if r in rules_config]
+        if rule_lines:
+            rules_text = "\n".join(rule_lines)
+
+    description = messages_config.get("mute_description", "").format(
+        username=member.display_name,
+        duration=f"{duration_minutes} minutes",
+        score=f"{score:.2f}",
+        categories=cat_str,
+    )
+    if rules_text:
+        description += f"\n\nRules violated:\n{rules_text}"
+
    embed = discord.Embed(
        title=messages_config.get("mute_title", "BREEHAVIOR ALERT"),
-        description=messages_config.get("mute_description", "").format(
-            username=member.display_name,
-            duration=f"{duration_minutes} minutes",
-            score=f"{score:.2f}",
-            categories=cat_str,
-        ),
+        description=description,
        color=discord.Color.red(),
    )
    embed.set_footer(
@@ -58,25 +70,29 @@ async def mute_user(
    )

    await message.channel.send(embed=embed)
+
+    rules_log = f" | Rules: {','.join(str(r) for r in violated_rules)}" if violated_rules else ""
    await log_action(
        message.guild,
        f"**MUTE** | {member.mention} | Score: {score:.2f} | "
        f"Duration: {duration_minutes}m | Offense #{offense_num} | "
-        f"Categories: {cat_str}",
+        f"Categories: {cat_str}{rules_log}",
    )

    logger.info(
-        "Muted %s for %d minutes (offense #%d, score %.2f)",
+        "Muted %s for %d minutes (offense #%d, score %.2f, rules=%s)",
        member, duration_minutes, offense_num, score,
+        violated_rules or [],
    )

+    rules_detail = f" rules={','.join(str(r) for r in violated_rules)}" if violated_rules else ""
    asyncio.create_task(bot.db.save_action(
        guild_id=message.guild.id,
        user_id=member.id,
        username=member.display_name,
        action_type="mute",
        message_id=db_message_id,
-        details=f"duration={duration_minutes}m offense={offense_num} score={score:.2f} categories={cat_str}",
+        details=f"duration={duration_minutes}m offense={offense_num} score={score:.2f} categories={cat_str}{rules_detail}",
    ))
    save_user_state(bot, dirty_users, member.id)

@@ -84,6 +100,7 @@ async def mute_user(
 async def warn_user(
    bot, message: discord.Message, score: float,
    db_message_id: int | None, dirty_users: set[int],
+    violated_rules: list[int] | None = None, rules_config: dict | None = None,
 ):
    timeout_config = bot.config.get("timeouts", {})
    cooldown = timeout_config.get("warning_cooldown_minutes", 5)
@@ -104,20 +121,29 @@ async def warn_user(
        "Easy there, {username}. The Breehavior Monitor is watching.",
    ).format(username=message.author.display_name)

+    # Append rule citation if rules were violated
+    if violated_rules and rules_config:
+        rule_lines = [f"Rule {r}: {rules_config[r]}" for r in violated_rules if r in rules_config]
+        if rule_lines:
+            warning_text += "\n" + " | ".join(rule_lines)
+
    await message.channel.send(warning_text)
+
+    rules_log = f" | Rules: {','.join(str(r) for r in violated_rules)}" if violated_rules else ""
    await log_action(
        message.guild,
-        f"**WARNING** | {message.author.mention} | Score: {score:.2f}",
+        f"**WARNING** | {message.author.mention} | Score: {score:.2f}{rules_log}",
    )

-    logger.info("Warned %s (score %.2f)", message.author, score)
+    logger.info("Warned %s (score %.2f, rules=%s)", message.author, score, violated_rules or [])

+    rules_detail = f" rules={','.join(str(r) for r in violated_rules)}" if violated_rules else ""
    asyncio.create_task(bot.db.save_action(
        guild_id=message.guild.id,
        user_id=message.author.id,
        username=message.author.display_name,
        action_type="warning",
        message_id=db_message_id,
-        details=f"score={score:.2f}",
+        details=f"score={score:.2f}{rules_detail}",
    ))
    save_user_state(bot, dirty_users, message.author.id)