논문 리뷰) On the

AI를 사용하여 AI 생성 이미지를 결정하는 것은 생각보다 쉽지 않습니다. 이 논문는 지난 11월 CVPR에 게재된 논문으로, 이전 논문에서 제시한 방법의 효율성을 검토하는 리뷰 논문에 가깝습니다. 레코드 및 코드 공식으로 주어진이 작업을 기반으로 추가 방법을 조사하고 구현해야 합니다.


0. 요약

지난 10년 동안 거위그리고 최근 확산 모델이러한 방법에 의한 합성 매체의 생산에서 상당한 발전이 이루어졌습니다. DM은 Text-to-Visual(TTV) 생성을 가능하게 합니다. 악의적인 공격이 연구는 DM에 의해 만들어졌습니다. 합성 이미지와 실제 이미지를 구별하는 것이 얼마나 어려운지 소셜 네트워크에서 이미지 압축 및 크기 조정을 사용하여 어려운 시나리오를 이해하고 이해합니다. 작업에 대한 현재 감지기의 적합성 평가할 목표


1. 소개

DM을 활용한 합성매체는 사실적이어서 활용도가 높지만 남용되기 쉽다. 이를 방지하기 위해 다양한 연구 방법이 개발되었습니다.

  1. 이미지의 그림자 또는 반사 사진의 비대칭찾는 방법
    • 그 이후로 대비와 빛과 같은 전역적 의미 불일치를 찾는 방법이 개발되었습니다.
    • 그러나 GAN과 DM의 발달로 모순점을 찾기 어렵다.
  2. 최신 SOTA 감지기 인간의 눈으로 볼 수 없는 영역조사했다
    • 합성 시각 데이터는 다음에 생성됩니다. 반드시 공간 도메인에 고유한 추적왼쪽
    • 각 세대 아키텍처에는 서로 다른 고유한 흔적이 있습니다.
    • 또한 업샘플링 과정에서 GAN f주파수 영역의 특정 스펙트럼 피크왼쪽

그러나 StyleGAN3과 같은 정교한 아키텍처의 출현으로 SOTA 감지기는 추적도 감지할 수 있습니다. 찾기 힘들다 +트랙이 너무 안좋아서 사진에 조금밖에 없네요 손상된(크기 조정 등), 성능에 영향을 미칩니다.

NVIDIA의 StyleGAN3 이미지를 결정하기 위한 최근(2022년) 경쟁에서 긍정적인 결과가 나왔지만 이는 이상적인 환경에서 테스트되었습니다. 이 연구 DM 생성 이미지의 아티팩트가 GAN과 동일한지, 현재 SOTA 디텍터가 어느 정도 효과적인지, 어떤 이미지에 적용되는지 알아보기 위해 하는 것이 목적입니다.


2. 배경

합성영상의 차별화에 관한 중요한 연구결과 발표

  1. 증가수업 다양한 기차 기록모델의 견고성을 높입니다. 하지만 크기 변경 빌드 단계에서 생성된 고주파 트레이스를 제거하기 때문에 피하다. 이에 대한 방법이 있습니다.

    1. 크기 조정 없이 로컬 패치 단위를 잘라내어 학습
    2. Fusion 사용 시 전체 이미지를 보고 최종 판단
    3. 첫 번째 레이어에서 다운샘플링 방지
  2. 로컬 패치에 집중하면서 로컬-글로벌 컨텍스트를 유지하는 것이 중요합니다.

  3. 대규모 데이터 세트에 대한 사전 교육이 중요하지만 원본 이미지 대신 나머지(중요하지 않은 이미지…?) 교육이나 너무 많은 증강은 도움이 되지 않았습니다.


3. 유물 분석

GAN 제품은 아키텍처(계층의 유형 및 수)에 따라 다릅니다. 고유한 흔적(지문)남아있다. 지문은 파이프라인을 통과하여 어떤 GAN인지 알아냅니다. PRNU 패턴 추출BE.

PRNU 패턴: 광 응답 비균일성 패턴.
빛이 있을 때 픽셀마다 다른 게인으로 발생하는 FPN(Fixed Pattern Noise)

  1. 사진은 노이즈 감소 필터 $f(\cdot)$를 통과합니다.

$$
\hat{X_i} = 에프(X_i)
$$

  1. 원본 이미지에서 제거 잔여 소음찾았다

$$
R_i = \hat{X_i} – f(X_i)
$$

  1. 잔차의 평균내 지문을 얻었다

$$
\hat{F}=(1/N)\Sigma_{i=1}^{\hat{N}}R_i
$$

본 연구에서는 1000개의 이미지로부터 잔차를 평균한 후, 푸리에 변환사용.

GAN 모델은 강력한 정점을 공유합니다.나타납니다. GLIDE, Latent Diffusion 및 Stable Diffusion과 같은 DM 모델도 공통 지문을 보여 동일한 검출기가 효과적인 것처럼 보이지만 다른 DM 모델은 피크를 많이 나타내지 않습니다.


4. 인식 성능

  • 테스트 개체
    • GAN: ProGAN, StyleGAN2, StyleGAN3, BigGAN, EG3D
    • 트랜스포머: 길들이기 트랜스포머, DALL-E Mini, DALL-E 2, GLIDE
    • 확산 모델: 잠재 확산, 안정 확산, ADM(Ablated 확산 모델)
    • TTI용 COCO 음성 프롬프트
    • 실제 데이터: COCO, ImageNet, UCID
  • 기차
    1. 362,000개의 ProGAN 이미지, 20개 카테고리
    2. 200,000개의 잠재 확산 이미지, 5개 카테고리
  • 시험
    • 모델별 합성 이미지 1000개 + 실제 이미지 5000개
  • 탐지기

    • 사양: 주파수 분석
    • PatchForensics: 로컬 패치 분석
    • Wang2020: 흐림 및 압축 확장 기능이 있는 Resnet50
    • Grag2021: Wang2020 백본이지만 첫 번째 레이어에서 다운샘플링을 피하고 집중적인 증강
  • 평가 방법

    • AUC, acc 임계값 = 0.5

일반화 및 견고성

  1. PNG 형식 압축되지 않은 합성 이미지실험하다

    • 실제 이미지는 항상 압축된 JPEG이므로 흔적이 남습니다. 구별하기 쉬운 성능 향상
    • 하지만 열차의 Acc 임계값이 다른 데이터셋에서 문제가 되어서 성능이 나오지 않는 경우가 있습니다.
  2. IEEE VIP 컵에서 사용 실제 환경본뜨다

    • 시험마다 임의 위치, 크롭 크기200×200 리사이징 후 JPEG factor 65~100 압박 붕대
    • 대부분의 경우에 성능 저하특히 스파이크가 약한 DALL-E 2 및 ADM에서.

  1. 가장 성능이 좋은 Grag2021을 ADM 이미지로 학습시켜 실험
    • 성능은 ADM뿐만 아니라 유사한 아티팩트로 안정적인 확산에도 매우 좋습니다.

융합 및 교정

  • Latent Diffusion과 ProGAN으로 Grag2021을 학습한 결과 융합(단순 평균)GAN 성능은 향상되었지만 DM의 정확도는 여전히 낮았습니다.

  • Platt 스케일링 방법으로 구경 측정 법원 청문회

    • 플랫 스케일링 방법 : 로지스틱 회귀에서 모델의 결과를 다시 태워서 값을 계산
    • 성능은 올라갔지만 여전히 기차에서 나오지 않은 아티팩트가 있는 이미지를 찾을 수 없었습니다.

5. 결론

이 연구 확산 모델에 의해 생성된 합성 이미지 인식DM 이미지는 **고유한 지문입니다.(아티팩트/추적), 그러나 SOTA** 탐지기 성능은 특정 모델 및 포렌식 추적에 크게 의존합니다.일반화는 여전히 어렵고 DM 이미지 인식 문제를 해결하기 위해 추가 분석이 필요하다는 것을 발견했습니다.