random_image

Duplicated Image를 찾는 기본 방법

tony | Sept. 20, 2024, 8:57 p.m. | tool | Not Tagged

Hash function을 사용해 판단

Image 에서 Hash function을 사용해 이미지를 비교할 수 있다.

이 YouTube 영상에 image에서의 hash function 적용에 관해 설명하고 있어서 보고 오자.

 

Image 관련 Hash function 기능을 Johannes Buchner 가 구현해 놓은 오픈소스로 Imagehash https://github.com/JohannesBuchner/imagehash 가 있음.

그런데 이 오픈소스를 사용해 병렬처리로 쉽게 사용할 수 있도록 만들어놓은 https://github.com/lene/DuplicateImages 도 있으니 참고. 

Last updated on Sept. 20, 2024, 8:57 p.m.

LEAVE A COMMENT

tony | 3 months, 3 weeks ago

ChatGPT에게 중복 이미지 처리 관련 방법들에 대한 질문을 해보니 이 링크 같이 답변

  • 데이터셋 크기가 작고 단순한 중복 제거가 목표라면 aHash, pHash, dHash.
  • 데이터셋 크기가 크거나 이미지 왜곡까지 고려해야 한다면 Deep Learning 기반 Embedding.
  • 이미지 간 구조적 차이까지 정밀히 감지해야 한다면 ORB (Ethan R, 2011) 또는 SIFT (David G, 2004) 기법 추천합니다.
    • 추가적으로 wHashSSIM (엔비디아 측 분석리포트 참고) 방법도 있음.