FairDisCo: Adversarial Debiasing Architecture¶

Executive Summary¶

FairDisCo (Fair Disentanglement with Contrastive Learning) is an algorithm-level fairness technique that uses adversarial training to remove skin tone bias from latent representations while maintaining diagnostic accuracy. This document provides comprehensive architectural specifications, implementation details, training protocols, and integration strategies.

Expected Impact: 65% reduction in Equal Opportunity Difference (EOD) across FST groups (Wind et al., 2022)

1. Architectural Overview¶

1.1 Three-Branch Network Design¶

                      Input Image (224×224×3)
                               |
                               v
                    ┌──────────────────────┐
                    │  Feature Extractor   │  ← ResNet50 (pre-trained ImageNet)
                    │   (Shared Backbone)  │     Output: 2048-dim embeddings
                    └──────────────────────┘
                               |
                 ┌─────────────┼─────────────┐
                 v             v             v
         ┌──────────┐  ┌─────────────┐  ┌──────────────┐
         │Classification│Gradient      │  Contrastive │
         │   Head    │  │Reversal Layer│  │   Branch   │
         │           │  │     (GRL)    │  │            │
         └──────────┘  └─────────────┘  └──────────────┘
                |             |             |
                v             v             v
         Diagnosis     FST Prediction   Feature
         (7 classes)   (6 classes)      Alignment

         Loss = L_cls + λ_adv × L_adv + λ_con × L_con

1.2 Component Specifications¶

Feature Extractor (Shared Backbone): - Architecture: ResNet50 (25.6M parameters) - Pre-trained: ImageNet-1K (1.28M images, 1000 classes) - Output: 2048-dimensional embeddings (after global average pooling) - Trainable: Yes (full fine-tuning, not frozen) - Alternative backbones: EfficientNet B4 (19M params), DenseNet121 (8M params)

Classification Head: - Architecture: 2-layer MLP - Layer 1: 2048 → 512 (ReLU, Dropout 0.3) - Layer 2: 512 → 7 (Softmax) - Output: Diagnosis probabilities (MEL, NV, BCC, AK, BKL, DF, VASC) - Trainable: Yes (trained end-to-end with backbone)

Adversarial Discriminator (FST Predictor): - Architecture: 3-layer MLP - Layer 1: 2048 → 512 (ReLU, Dropout 0.3) - Layer 2: 512 → 256 (ReLU, Dropout 0.2) - Layer 3: 256 → 6 (Softmax) - Output: FST probabilities (I, II, III, IV, V, VI) - Trainable: Yes (adversarial training via Gradient Reversal Layer) - Goal: Minimize FST predictability (force embeddings to be FST-invariant)

Contrastive Branch: - Architecture: Projection head (for contrastive learning) - Layer 1: 2048 → 1024 (ReLU) - Layer 2: 1024 → 128 (L2 normalization) - Output: 128-dimensional normalized embeddings - Trainable: Yes (trained with contrastive loss) - Goal: Pull same-diagnosis embeddings together, push different-diagnosis apart

2. Core Mechanisms¶

2.1 Gradient Reversal Layer (GRL)¶

Concept: Adversarial training without separate discriminator training loop

Mathematical Formulation: - Forward pass: y = x (identity operation) - Backward pass: ∂L/∂x = -λ × ∂L/∂y (multiply gradient by -λ)

Effect: - Discriminator learns to predict FST from embeddings (normal gradient) - Backbone learns to PREVENT FST prediction (reversed gradient) - Result: FST-invariant embeddings (discriminator accuracy → random chance)

PyTorch Implementation:

import torch
from torch.autograd import Function

class GradientReversalFunction(Function):
    @staticmethod
    def forward(ctx, x, lambda_):
        ctx.lambda_ = lambda_
        return x.view_as(x)  # Identity in forward pass

    @staticmethod
    def backward(ctx, grad_output):
        # Reverse gradient, scale by lambda
        return -ctx.lambda_ * grad_output, None

class GradientReversalLayer(torch.nn.Module):
    def __init__(self, lambda_=1.0):
        super().__init__()
        self.lambda_ = lambda_

    def forward(self, x):
        return GradientReversalFunction.apply(x, self.lambda_)

Lambda Scheduling (Critical for Stability): - Start: λ = 0.0 (no adversarial training, learn basic features) - Ramp-up: λ linearly increases from 0.0 → 0.3 over 10-20 epochs - Steady: λ = 0.3 for remainder of training - Rationale: Prevents gradient instability in early training

2.2 Contrastive Loss (Supervised)¶

Concept: Encourage same-diagnosis embeddings to cluster, regardless of FST

Formulation (Supervised Contrastive Loss from Khosla et al., 2020):

L_con = -1/|P(i)| × Σ_{p∈P(i)} log[ exp(z_i · z_p / τ) / Σ_{a∈A(i)} exp(z_i · z_a / τ) ]

Where:
- z_i: Normalized embedding of anchor image i (from contrastive branch)
- P(i): Set of positives (same diagnosis as i, different FST)
- A(i): Set of all images except i
- τ: Temperature parameter (default 0.07)

Key Insight: Positives include ONLY same-diagnosis, different-FST pairs - Example: Anchor = melanoma FST VI - Positives: Melanoma FST I, II, III, IV, V - Negatives: All non-melanoma images (any FST) - Result: Model learns "melanoma" concept independent of skin tone

PyTorch Implementation:

import torch
import torch.nn.functional as F

class SupervisedContrastiveLoss(torch.nn.Module):
    def __init__(self, temperature=0.07):
        super().__init__()
        self.temperature = temperature

    def forward(self, embeddings, labels, fst_labels):
        # Normalize embeddings (L2 norm)
        embeddings = F.normalize(embeddings, p=2, dim=1)

        # Compute similarity matrix: N×N (N = batch size)
        similarity_matrix = torch.matmul(embeddings, embeddings.T) / self.temperature

        # Create mask: positive pairs (same diagnosis, different FST)
        batch_size = embeddings.size(0)
        labels = labels.view(-1, 1)
        fst_labels = fst_labels.view(-1, 1)

        label_mask = torch.eq(labels, labels.T).float()  # Same diagnosis
        fst_mask = ~torch.eq(fst_labels, fst_labels.T)    # Different FST
        positive_mask = label_mask * fst_mask             # Both conditions

        # Remove self-similarity
        self_mask = torch.eye(batch_size, device=embeddings.device)
        positive_mask = positive_mask * (1 - self_mask)

        # Compute loss (numerically stable)
        exp_sim = torch.exp(similarity_matrix) * (1 - self_mask)
        log_prob = similarity_matrix - torch.log(exp_sim.sum(dim=1, keepdim=True))

        # Average over positive pairs
        loss = -(positive_mask * log_prob).sum(dim=1) / positive_mask.sum(dim=1).clamp(min=1)
        return loss.mean()

Hyperparameters: - Temperature τ = 0.07 (standard, from SimCLR) - Projection dimension: 128 (trade-off: 64 too small, 256 overkill) - Batch size: 64+ (need enough positives per batch, 32 too small)

2.3 Adversarial Discriminator¶

Training Dynamics: - Discriminator goal: Maximize FST classification accuracy - Backbone goal: Minimize FST classification accuracy (via GRL) - Equilibrium: Discriminator accuracy ≈ 16.7% (random chance for 6 classes)

Monitoring Discriminator Performance (Critical): - Epoch 1-10: Accuracy increases (50-70%) - discriminator learning - Epoch 10-30: Accuracy decreases (70% → 30%) - backbone learning invariance - Epoch 30+: Accuracy plateaus (20-25%) - equilibrium reached - Warning: If accuracy stays >50% after epoch 50, increase λ_adv

Architecture Considerations: - 3 layers (2 hidden): Sufficient expressiveness without overfitting - Dropout 0.3, 0.2: Prevent discriminator from memorizing FST patterns - Hidden dimensions: 512, 256 (balance: too small = weak discriminator, too large = unstable)

3. Loss Function & Training Protocol¶

3.1 Multi-Task Loss¶

Total Loss:

L_total = L_cls + λ_adv × L_adv + λ_con × L_con

Component Losses: 1. Classification Loss (L_cls): Cross-entropy for diagnosis

L_cls = CrossEntropyLoss(predictions, diagnosis_labels)

Adversarial Loss (L_adv): Cross-entropy for FST (reversed gradient)

fst_predictions = discriminator(grl(embeddings))
L_adv = CrossEntropyLoss(fst_predictions, fst_labels)
# Gradient flows backward through GRL (reversed for backbone)

Contrastive Loss (L_con): Supervised contrastive (see section 2.2)

contrastive_embeddings = projection_head(embeddings)
L_con = SupervisedContrastiveLoss(contrastive_embeddings, diagnosis_labels, fst_labels)

Loss Weights (Optimized from Literature): - λ_cls = 1.0 (implicit, main task) - λ_adv = 0.3 (adversarial debiasing) - Too low (0.1): Insufficient debiasing - Too high (0.5+): Accuracy degradation (>5%) - λ_con = 0.2 (contrastive learning) - Compensates for accuracy loss from adversarial training - Improves feature quality

Dynamic Weight Scheduling (Advanced):

def get_loss_weights(epoch, total_epochs):
    # Warmup: No adversarial training in early epochs
    if epoch < 10:
        lambda_adv = 0.0
        lambda_con = 0.0
    elif epoch < 30:
        # Ramp up adversarial training
        lambda_adv = 0.3 * (epoch - 10) / 20  # 0.0 → 0.3
        lambda_con = 0.2 * (epoch - 10) / 20  # 0.0 → 0.2
    else:
        # Full training
        lambda_adv = 0.3
        lambda_con = 0.2

    return 1.0, lambda_adv, lambda_con

3.2 Training Hyperparameters¶

Optimizer:

optimizer = torch.optim.AdamW(
    model.parameters(),
    lr=1e-4,              # Learning rate (backbone + heads)
    weight_decay=0.01,    # L2 regularization
    betas=(0.9, 0.999),   # Adam momentum parameters
)

Learning Rate Schedule:

scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(
    optimizer,
    T_0=20,               # Restart every 20 epochs
    T_mult=2,             # Double period after each restart
    eta_min=1e-6,         # Minimum learning rate
)

Training Configuration: - Epochs: 100 - Batch size: 64 (minimum for contrastive loss, 32 suboptimal) - Gradient accumulation: 2 (effective batch size 128 if GPU memory limited) - Mixed precision: Enabled (FP16, 2x speedup, -50% VRAM) - Gradient clipping: Max norm 1.0 (prevent instability from GRL)

Data Augmentation: - RandAugment (N=2, M=9) - Random horizontal flip (p=0.5) - Random rotation (±15°) - Color jitter (brightness ±0.2, contrast ±0.2, saturation ±0.2) - No cutout/mixup: Interferes with contrastive learning

Regularization: - Dropout: 0.3 (classification head), 0.3, 0.2 (discriminator) - Weight decay: 0.01 (AdamW) - Label smoothing: 0.1 (classification loss, improves calibration)

3.3 Training Loop (Pseudocode)¶

for epoch in range(num_epochs):
    # Update loss weights (dynamic scheduling)
    lambda_cls, lambda_adv, lambda_con = get_loss_weights(epoch, num_epochs)

    for batch in train_loader:
        images, diagnosis_labels, fst_labels = batch

        # Forward pass
        embeddings = backbone(images)                    # 2048-dim
        diagnosis_logits = classification_head(embeddings)

        # Adversarial branch (with gradient reversal)
        reversed_embeddings = grl(embeddings)
        fst_logits = discriminator(reversed_embeddings)

        # Contrastive branch
        contrastive_embeddings = projection_head(embeddings)

        # Compute losses
        loss_cls = cross_entropy(diagnosis_logits, diagnosis_labels)
        loss_adv = cross_entropy(fst_logits, fst_labels)
        loss_con = supervised_contrastive_loss(
            contrastive_embeddings, diagnosis_labels, fst_labels
        )

        # Total loss
        loss = lambda_cls * loss_cls + lambda_adv * loss_adv + lambda_con * loss_con

        # Backward pass
        optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        optimizer.step()

    # Validation (monitor discriminator accuracy)
    discriminator_accuracy = evaluate_discriminator(val_loader)
    print(f"Epoch {epoch}: Discriminator accuracy = {discriminator_accuracy:.2%}")

    # Adjust lambda_adv if discriminator too strong/weak
    if discriminator_accuracy > 0.5 and epoch > 30:
        lambda_adv *= 1.2  # Increase adversarial strength
    elif discriminator_accuracy < 0.2 and epoch > 30:
        lambda_adv *= 0.8  # Reduce adversarial strength (over-regularization)

4. Implementation Details¶

4.1 Full PyTorch Model¶

import torch
import torch.nn as nn
import torchvision.models as models

class FairDisCoModel(nn.Module):
    def __init__(
        self,
        num_classes=7,         # Diagnosis classes
        num_fst_classes=6,     # FST classes (I-VI)
        backbone="resnet50",
        pretrained=True,
        contrastive_dim=128,
        lambda_adv=0.3,
    ):
        super().__init__()

        # Backbone (feature extractor)
        if backbone == "resnet50":
            self.backbone = models.resnet50(pretrained=pretrained)
            feature_dim = self.backbone.fc.in_features  # 2048
            self.backbone.fc = nn.Identity()  # Remove original FC layer
        else:
            raise ValueError(f"Unsupported backbone: {backbone}")

        # Classification head
        self.classification_head = nn.Sequential(
            nn.Linear(feature_dim, 512),
            nn.ReLU(),
            nn.Dropout(0.3),
            nn.Linear(512, num_classes),
        )

        # Gradient reversal layer
        self.grl = GradientReversalLayer(lambda_=lambda_adv)

        # Adversarial discriminator (FST predictor)
        self.discriminator = nn.Sequential(
            nn.Linear(feature_dim, 512),
            nn.ReLU(),
            nn.Dropout(0.3),
            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(256, num_fst_classes),
        )

        # Contrastive projection head
        self.projection_head = nn.Sequential(
            nn.Linear(feature_dim, 1024),
            nn.ReLU(),
            nn.Linear(1024, contrastive_dim),
        )

    def forward(self, x, return_embeddings=False):
        # Extract features
        embeddings = self.backbone(x)  # Shape: [batch_size, 2048]

        # Classification branch
        diagnosis_logits = self.classification_head(embeddings)

        # Adversarial branch (with gradient reversal)
        reversed_embeddings = self.grl(embeddings)
        fst_logits = self.discriminator(reversed_embeddings)

        # Contrastive branch
        contrastive_embeddings = self.projection_head(embeddings)
        contrastive_embeddings = F.normalize(contrastive_embeddings, p=2, dim=1)

        if return_embeddings:
            return diagnosis_logits, fst_logits, contrastive_embeddings, embeddings
        else:
            return diagnosis_logits, fst_logits, contrastive_embeddings

    def update_lambda_adv(self, lambda_adv):
        """Update gradient reversal strength during training."""
        self.grl.lambda_ = lambda_adv

4.2 Training Script (Complete)¶

import torch
from torch.utils.data import DataLoader
from tqdm import tqdm

# Initialize model
model = FairDisCoModel(
    num_classes=7,
    num_fst_classes=6,
    backbone="resnet50",
    pretrained=True,
    lambda_adv=0.3,
).cuda()

# Optimizer and scheduler
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.01)
scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(
    optimizer, T_0=20, T_mult=2, eta_min=1e-6
)

# Loss functions
criterion_cls = nn.CrossEntropyLoss(label_smoothing=0.1)
criterion_adv = nn.CrossEntropyLoss()
criterion_con = SupervisedContrastiveLoss(temperature=0.07)

# Training loop
num_epochs = 100
for epoch in range(num_epochs):
    model.train()

    # Dynamic loss weights
    lambda_cls, lambda_adv, lambda_con = get_loss_weights(epoch, num_epochs)
    model.update_lambda_adv(lambda_adv)

    for images, diagnosis_labels, fst_labels in tqdm(train_loader):
        images = images.cuda()
        diagnosis_labels = diagnosis_labels.cuda()
        fst_labels = fst_labels.cuda()

        # Forward pass
        diagnosis_logits, fst_logits, contrastive_embeddings = model(images)

        # Compute losses
        loss_cls = criterion_cls(diagnosis_logits, diagnosis_labels)
        loss_adv = criterion_adv(fst_logits, fst_labels)
        loss_con = criterion_con(contrastive_embeddings, diagnosis_labels, fst_labels)

        # Total loss
        loss = lambda_cls * loss_cls + lambda_adv * loss_adv + lambda_con * loss_con

        # Backward pass
        optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        optimizer.step()

    scheduler.step()

    # Validation
    val_metrics = evaluate(model, val_loader)
    print(f"Epoch {epoch}: Discriminator accuracy = {val_metrics['disc_acc']:.2%}")

    # Save checkpoint
    if epoch % 10 == 0:
        torch.save({
            "epoch": epoch,
            "model_state_dict": model.state_dict(),
            "optimizer_state_dict": optimizer.state_dict(),
            "val_metrics": val_metrics,
        }, f"checkpoints/fairdisco_epoch_{epoch}.pth")

5. Evaluation Metrics¶

5.1 Fairness Metrics¶

Equal Opportunity Difference (EOD):

EOD = |TPR_FST-I-III - TPR_FST-V-VI|

Where TPR (True Positive Rate) = Sensitivity for malignant cases

Target: EOD <0.05 (5% maximum disparity) Baseline: EOD ≈0.18 (18% disparity without fairness techniques) Expected: EOD ≈0.06 (65% reduction, 6% disparity)

Demographic Parity Difference (DPD):

DPD = |P(ŷ=1 | FST=I-III) - P(ŷ=1 | FST=V-VI)|

Where ŷ=1 means positive prediction (malignant)

Equalized Odds: - Requires both TPR and FPR to be equal across groups - More stringent than equal opportunity (which only considers TPR)

5.2 Accuracy Metrics (Maintain Performance)¶

Overall Accuracy: >88% (target: 91-93%) AUROC per FST: Minimize gap (target: <8% in Phase 2) Sensitivity (Melanoma): >90% for ALL FST groups Specificity: >80% for ALL FST groups

5.3 Discriminator Monitoring¶

Discriminator Accuracy on Validation Set: - Early training (epoch 1-20): 50-70% - Mid training (epoch 20-50): 40-30% - Late training (epoch 50-100): 20-25% - Target: 20-25% (near random chance 16.7%)

Interpretation: - High accuracy (>50%): Embeddings still FST-predictable (increase λ_adv) - Very low accuracy (<15%): Over-regularization, may hurt classification (decrease λ_adv)

6. Computational Requirements¶

6.1 GPU Requirements¶

Training: - Minimum: 1x RTX 3090 (24GB VRAM) - Recommended: 2x RTX 4090 (48GB total VRAM, 1.8x speedup) - Optimal: 4x A100 (160GB total VRAM, 3.5x speedup)

VRAM Breakdown (Batch size 64, ResNet50): - Model weights: 25.6M (backbone) + 5M (heads) = 30.6M params × 4 bytes = 122MB - Optimizer state (AdamW): 244MB (2x model params) - Activations (forward pass): ~180MB per image × 64 = 11.5GB - Gradients: ~122MB (same as weights) - Total: ~12GB (fits on RTX 3090)

Mixed Precision (FP16): Reduces to ~6.5GB VRAM, 1.8x speedup

6.2 Training Time¶

Single GPU (RTX 3090): - Epoch time: ~15 minutes (Fitzpatrick17k, 16,577 images, batch 64) - Total training: 100 epochs × 15 min = 25 hours

Multi-GPU Speedup: - 2 GPUs: 14 hours (1.8x speedup) - 4 GPUs: 8 hours (3.1x speedup) - 8 GPUs: 5 hours (5.0x speedup, diminishing returns)

Inference Time: - Single image: ~30ms (RTX 3090, FP32) - Batch 32: ~18ms per image (batching efficiency) - FP16: ~15ms per image (2x faster)

7. Ablation Studies & Variants¶

7.1 Component Ablation¶

Baseline (No Fairness): ResNet50 + Classification Head - AUROC gap: 15-20% - EOD: 0.18

+ Adversarial Debiasing Only (No Contrastive): - AUROC gap: 10-12% (30% improvement) - EOD: 0.10 (44% reduction) - Accuracy: -2% (trade-off)

+ Contrastive Learning Only (No Adversarial): - AUROC gap: 12-14% (20% improvement) - EOD: 0.12 (33% reduction) - Accuracy: +1% (improves feature quality)

+ Both (Full FairDisCo): - AUROC gap: 8-10% (50% improvement) - EOD: 0.06 (65% reduction) - Accuracy: -0.5% (minimal trade-off)

Insight: Adversarial + Contrastive are complementary - Adversarial: Removes FST signal - Contrastive: Maintains diagnostic signal - Combined: Best fairness with minimal accuracy loss

7.2 Alternative Architectures¶

Backbone Variants: - EfficientNet B4 (19M params): Similar fairness, 1.5x faster inference - DenseNet121 (8M params): -2% accuracy, but 2x faster - Swin Transformer Small (50M params): +1% accuracy, +2% fairness, 3x slower

Discriminator Variants: - 2-layer MLP: -10% fairness (too weak) - 4-layer MLP: +5% fairness, +50% training time (diminishing returns) - Multi-scale discriminator (predict FST at multiple layers): +8% fairness, 2x complexity

8. Open-Source Implementation¶

8.1 Official FairDisCo Repository¶

GitHub: https://github.com/siyi-wind/FairDisCo

Key Details: - Language: Python 3.8.1 - Framework: PyTorch v1.8.0 - CUDA: 11.1, CuDNN 7 - License: Not specified (contact authors for commercial use)

Provided Code: - train_BASE.py: Baseline training (no fairness) - train_ATRB.py: Attribute-aware training - train_FairDisCo.py: Full FairDisCo implementation - multi_evaluate.ipynb: Evaluation notebook

Training Command:

python -u train_FairDisCo.py 20 full fitzpatrick FairDisCo
# Arguments: [seed] [dataset_split] [dataset_name] [method_name]

Datasets Supported: - Fitzpatrick17k (16,577 images) - DDI (656 images, Diverse Dermatology Images)

Model Checkpoints: Not publicly released (must train from scratch)

8.2 Integration Assessment¶

Ease of Integration: Moderate - Well-structured code, clear separation of components - Requires adaptation for different datasets (HAM10000, MIDAS) - Hyperparameters hard-coded (need refactoring for experimentation)

Code Quality: Good - PyTorch best practices (DataLoaders, GPU acceleration) - Some magic numbers (should be config file) - Limited documentation (assume familiarity with paper)

Recommended Approach: 1. Clone repository, install dependencies 2. Run baseline experiment on Fitzpatrick17k (verify setup) 3. Adapt for HAM10000 + Fitzpatrick17k combined dataset 4. Refactor hyperparameters to config file (YAML) 5. Add WandB logging for experiment tracking

9. Implementation Timeline¶

Week 1: Setup & Baseline - Day 1-2: Install dependencies, download Fitzpatrick17k - Day 3-4: Implement baseline ResNet50 (no fairness) - Day 5: Train baseline (25 hours GPU time, run overnight) - Day 6-7: Evaluate baseline (quantify AUROC gap, EOD)

Week 2: FairDisCo Implementation - Day 1-2: Implement gradient reversal layer, test gradients - Day 3: Implement adversarial discriminator - Day 4: Implement supervised contrastive loss - Day 5-6: Integrate into training loop, debug - Day 7: Verify implementation (gradients flow correctly)

Week 3: Training & Tuning - Day 1-3: Train FairDisCo (100 epochs, ~25 hours) - Day 4-5: Monitor discriminator accuracy, adjust λ_adv - Day 6-7: Evaluate fairness (AUROC per FST, EOD, calibration)

Week 4: Ablation & Optimization - Day 1-2: Ablation study (adversarial only, contrastive only) - Day 3-4: Hyperparameter tuning (λ_adv, λ_con, batch size) - Day 5-7: Final training with optimal hyperparameters

Total: 4 weeks (28 days) - GPU time: ~100 hours (4 days continuous) - Human time: ~60 hours (1.5 weeks full-time equivalent)

10. Success Criteria¶

Fairness Metrics: - EOD reduction: >50% (from 0.18 → <0.09) - AUROC gap reduction: >30% (from 15-20% → <12%) - Discriminator accuracy: 20-25% (near random)

Accuracy Maintenance: - Overall accuracy: >88% (acceptable <3% drop from baseline) - AUROC (average across FST): >90% - Sensitivity (melanoma): >90% for ALL FST groups

Technical Validation: - GRL gradients verified (backward pass shows reversal) - Training stability (no mode collapse, discriminator oscillation) - Contrastive loss decreasing (embeddings clustering by diagnosis)

11. Risk Mitigation¶

Risk 1: Training Instability (GRL causes divergence) Mitigation: - Start λ_adv = 0, gradually increase (warmup 10-20 epochs) - Gradient clipping (max norm 1.0) - Reduce learning rate if loss spikes

Risk 2: Over-Regularization (Accuracy drops >5%) Mitigation: - Decrease λ_adv (0.3 → 0.2 → 0.1) - Increase λ_con (compensates with feature quality) - Monitor discriminator accuracy (should be 20-30%, not <15%)

Risk 3: Insufficient Debiasing (EOD still >0.10) Mitigation: - Increase λ_adv (0.3 → 0.4 → 0.5, monitor accuracy trade-off) - Stronger discriminator (4 layers instead of 3) - Combine with data-level fairness (FairSkin augmentation)

12. References¶

Primary Paper: - Wind, S., et al. (2022). "FairDisCo: Fairer AI in Dermatology via Disentanglement Contrastive Learning." ECCV ISIC Workshop (Best Paper). arXiv:2208.10013

Gradient Reversal: - Ganin, Y., & Lempitsky, V. (2015). "Unsupervised Domain Adaptation by Backpropagation." ICML.

Contrastive Learning: - Khosla, P., et al. (2020). "Supervised Contrastive Learning." NeurIPS.

Fairness in Medical AI: - Daneshjou, R., et al. (2022). "Disparities in dermatology AI performance on a diverse, curated clinical image set." Science Advances, 8(25), eabq6147.

Document Version: 1.0 Last Updated: 2025-10-13 Author: THE DIDACT (Strategic Research Agent) Status: IMPLEMENTATION-READY Next Review: Post-Phase 2 (Week 10)