[AgenticAI/개념] Agentic AI란?
요즘 에이전트(Agent)라는 단어가 자주 사용되고 있습니다. ChatGPT 출시 이후 생성형 AI가 인공지능 분야뿐 아니라 일상생활에서도 큰 변화를 가져왔습니다. 이제는 에이전트가 또 다른 혁명을 일으킬 것이라는 기대감이 커지고 있습니다. 이번 글에서는 Agentic AI가 무엇인지, 기존 AI 에이전트와 어떤 점이 다른지, 그리고 관련된 활용 사례...
요즘 에이전트(Agent)라는 단어가 자주 사용되고 있습니다. ChatGPT 출시 이후 생성형 AI가 인공지능 분야뿐 아니라 일상생활에서도 큰 변화를 가져왔습니다. 이제는 에이전트가 또 다른 혁명을 일으킬 것이라는 기대감이 커지고 있습니다. 이번 글에서는 Agentic AI가 무엇인지, 기존 AI 에이전트와 어떤 점이 다른지, 그리고 관련된 활용 사례...
오늘 소개할 논문은 NeurlPS 2023에 발표되었던 LayoutGPT라는 새로운 논문에 관한 것입니다. LayoutGPT는 대형 언어 모델(LLM)이 단순히 텍스트를 이해하는 데 그치지 않고, 시각적 레이아웃까지도 생성할 수 있음을 보여주는 매우 흥미로운 시도입니다. 특히, LayoutGPT는 텍스트 조건을 바탕으로 시각적 플래닝을 수행하고, 이...
오늘 소개드릴 논문은 OpenAI에서 발표했었던 텍스트를 이용해서 포인트 클라우드를 생성하여 3D를 생성하는 논문인 point-E 입니다. 코드는 해당 링크에 공유 되어 있습니다. 먼저 핵심 요약은 아래와 같습니다. 핵심 요약 관련 태스크: text-to-3D, point cloud generation 본 논문의 접근 방식 ...
안녕하세요! 오늘은 CVPR 2024에 발표된 3D 실내 장면을 생성하는 AI 모델인 DiffuScene에 대해 이야기해보려고 합니다. 이 모델은 Denoising Diffusion Models 활용하여 실내 공간을 자동으로 디자인하는데, 객체의 위치, 크기, 방향, 의미, 기하학적 특징 등을 조합해 더 현실적이고 자연스러운 장면을 만들어 내는 모델 ...
LaTex-OCR 논문 관련 내용으로 블로그 글을 쓰거나 발표 ppt를 만들 때 가장 귀찮고 번거로운 작업이 수식을 입력하는 것 아닐까 싶습니다. 마음 같아서 그냥 이미지 캡쳐해서 붙여넣기 하고 싶지만.. 포맷이 마음에 들지 않아서 항상 latex 문법을 이용해서 입력하곤 했었는데요. 이걸 OCR 기술을 이용해서 쉽게 할 수 있는 툴이 있습니다! 바...
오늘 소개 드릴 논문은 알리바바에서 발표한 Animate Anyone입니다. 현재 공식 코드는 레포만 만들어져 있는데 언제인지는 모르지만 코드는 공개할 예정이라고 합니다! 공식 코드는 아니지만 다른 분께서 구현해 놓은 코드가 있으니 참고하시길 바랍니다. 그리고 결과 영상 등은 해당 페이지에서 보실 수 있습니다. 구체적인 내용 소개에 앞서 해당 모...
3D 그래픽스에 대해 학습하기 전에 기본적인 카메라 원리에 대한 이해가 필요합니다. 그래서 이번 글에서는 카메라 원리에 대해 간단히 정리해봤습니다. 이번 글에서 다룰 내용은 아래와 같습니다. 카메라의 기본 원리 카메라 모델 (핀홀 카메라 모델, 렌즈 카메라 모델) 카메라 원리 카메라의 사진이 찍혀서 디지털 이미지로 저장되는 과정은 다음...
안녕하세요. 오늘은 구글리서치 그룹에서 발표한 Lumiere에 대해 소개 드리려고 합니다. 다만 아쉽게도 Imagen부터 해서 구글은 공식적인 코드를 공개하고 있지 않습니다. 또한 Make-a-Video 논문에서처럼 해당 논문에서도 구체적으로 언급하고 있지 않은 내용들이 많은데요. 아마 해당 분야 경쟁이 심화 되면서 구글 측에서는 모든 정보를 공개하지...
💡 핵심 요약 기존 디퓨전 모델에서 생성 과정을 제어할 때 발생했었던 문제를 해결하는 방법 제안 Asyrp을 제안하여 중간 변화가 상쇄되는 문제를 해결 디퓨전 모델에서 이미지 생성 과정을 제어할 수 있는 의미적 잠재 공간(semantic latent space)인 h-space의 발견 GA...
이번에 리뷰할 논문은 메타에서 공개한 Make-A-Video라는 논문입니다. 논문에서 구체적으로 설명되지 않은 부분은 Official하게 공개된 코드가 없어서 해당 코드 레파지토리를 통해 이해했습니다. (official 코드는 공개된 것이 없고 해당 레파지토리는 다른 분께서 구현하신 코드입니다.) 💡 핵심 요약 Text-to-Image...