JeongHwarr의 작은 다락방

[논문리뷰] LayoutGPT: Compositional Visual Planning and Generation with Large Language Models (NeurIPS 2023)

오늘 소개할 논문은 NeurlPS 2023에 발표되었던 LayoutGPT라는 새로운 논문에 관한 것입니다. LayoutGPT는 대형 언어 모델(LLM)이 단순히 텍스트를 이해하는 데 그치지 않고, 시각적 레이아웃까지도 생성할 수 있음을 보여주는 매우 흥미로운 시도입니다. 특히, LayoutGPT는 텍스트 조건을 바탕으로 시각적 플래닝을 수행하고, 이...

[기타] 이미지를 latex 수식으로 바꿔주는 툴, LaTeX-OCR

LaTex-OCR 논문 관련 내용으로 블로그 글을 쓰거나 발표 ppt를 만들 때 가장 귀찮고 번거로운 작업이 수식을 입력하는 것 아닐까 싶습니다. 마음 같아서 그냥 이미지 캡쳐해서 붙여넣기 하고 싶지만.. 포맷이 마음에 들지 않아서 항상 latex 문법을 이용해서 입력하곤 했었는데요. 이걸 OCR 기술을 이용해서 쉽게 할 수 있는 툴이 있습니다! 바...

[논문리뷰] Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

오늘 소개 드릴 논문은 알리바바에서 발표한 Animate Anyone입니다. 현재 공식 코드는 레포만 만들어져 있는데 언제인지는 모르지만 코드는 공개할 예정이라고 합니다! 공식 코드는 아니지만 다른 분께서 구현해 놓은 코드가 있으니 참고하시길 바랍니다. 그리고 결과 영상 등은 해당 페이지에서 보실 수 있습니다. 구체적인 내용 소개에 앞서 해당 모...

[3D Graphics/개념] 카메라 원리, 카메라 모델

3D 그래픽스에 대해 학습하기 전에 기본적인 카메라 원리에 대한 이해가 필요합니다. 그래서 이번 글에서는 카메라 원리에 대해 간단히 정리해봤습니다. 이번 글에서 다룰 내용은 아래와 같습니다. 카메라의 기본 원리 카메라 모델 (핀홀 카메라 모델, 렌즈 카메라 모델) 카메라 원리 카메라의 사진이 찍혀서 디지털 이미지로 저장되는 과정은 다음...

[논문리뷰] Lumiere: A Space-Time Diffusion Model for Video Generation

안녕하세요. 오늘은 구글리서치 그룹에서 발표한 Lumiere에 대해 소개 드리려고 합니다. 다만 아쉽게도 Imagen부터 해서 구글은 공식적인 코드를 공개하고 있지 않습니다. 또한 Make-a-Video 논문에서처럼 해당 논문에서도 구체적으로 언급하고 있지 않은 내용들이 많은데요. 아마 해당 분야 경쟁이 심화 되면서 구글 측에서는 모든 정보를 공개하지...

[논문리뷰] Make-A-Video: Text-to-Video Generation without Text-Video Data

이번에 리뷰할 논문은 메타에서 공개한 Make-A-Video라는 논문입니다. 논문에서 구체적으로 설명되지 않은 부분은 Official하게 공개된 코드가 없어서 해당 코드 레파지토리를 통해 이해했습니다. (official 코드는 공개된 것이 없고 해당 레파지토리는 다른 분께서 구현하신 코드입니다.) 💡 핵심 요약 Text-to-Image...