9월 네번째 주 AI 뉴스
September 23, 2023
이번주 AI 뉴스 📰
DeepMind, LLM이 자체 프롬프트를 최적화할 수 있다고 발표
자연어로 문제 정의: DeepMind의 새로운 논문에서는 대형 언어 모델(LLM)을 최적화 도구로 사용하는 방법을 제안함.
다양한 문제 해결: 문제 설명이나 지시사항을 단순히 수정함으로써, LLM은 다양한 문제를 해결할 수 있음.
실제 적용 가능성: 초기 실험에서는 LLM의 프롬프트를 최적화하여 작업 정확도를 향상시킬 수 있음을 보임.
The Information, “Google, 대화형 AI 소프트웨어 'Gemini' 출시 임박”
OpenAI 경쟁상대로 등장: Google의 'Gemini'는 OpenAI의 GPT-4 모델과 경쟁할 목적으로 개발되었다고 보도됨.
다기능 대화형 AI: Gemini는 챗봇부터 텍스트 요약, 코드 작성, 이미지 생성까지 다양한 기능을 제공할 예정
클라우드 서비스로 제공: Google은 Gemini를 Google Cloud Vertex AI 서비스를 통해 기업들에게 제공할 계획
아마존, 판매자를 위한 제품 설명 작성 지원용 Generative AI 출시
제품 설명 간소화: 아마존은 새로운 생성 AI 기능을 통해 판매자가 제품 설명, 제목, 상세 정보를 더 쉽게 작성할 수 있게 함.
고품질 콘텐츠 생성: 판매자는 간단한 제품 설명만 입력하면 아마존이 고품질의 콘텐츠를 생성해 검토할 수 있게 해줌
고객 경험 향상: 이러한 새로운 기능은 고객이 더 완벽한 제품 정보를 얻을 수 있도록 도와줄 것
이번주 AI 논문
생성형 이미지 역학: 실제 동작을 학습하여 정적 이미지를 동적으로 만들기
이미지 기반 동작 사전 학습: 실제 비디오에서 동작 궤적을 추출하여 자연스러운 움직임에 대한 모델을 생성.
신경 스토캐스틱 동작 텍스처: 단일 이미지에서 푸리에 도메인의 픽셀 단위 동작을 예측.
다용도 응용: 생성된 동작 궤적을 사용해 정적 이미지를 동적으로 변환하거나 실제 이미지와 상호 작용 가능.
AudioSR: 다양한 오디오 유형에 대한 대규모 고해상도 오디오 생성
오디오 초고해상도의 중요성: 디지털 응용에서 오디오 품질을 향상시키는 기본 작업으로, 이전 방법은 특정 오디오 유형과 대역폭에 제한됨.
AudioSR 모델 소개: 다양한 오디오 유형에 강력한 오디오 초고해상도를 수행할 수 있는 확산 기반 생성 모델을 제안함.
높은 성능 및 범용성: AudioSR는 다양한 오디오 생성 모델의 성능을 향상시킬 수 있는 플러그 앤 플레이 모듈로 작동함.
OmnimatteRF: 3D 배경 모델링을 통한 견고한 옴니매트
비디오 매팅의 한계: 기존 연구에서는 2D 이미지 계층만을 사용해 복잡한 실제 비디오에 적용하기 어려움.
OmnimatteRF 모델 소개: 동적 2D 전경 계층과 3D 배경 모델을 결합한 새로운 비디오 매팅 방법을 제안함.
높은 품질의 재구성: OmnimatteRF는 다양한 비디오에서 더 나은 품질로 장면을 견고하게 재구성함.
이번주 AI 프로덕트 📦
AgentVerse : 다중 에이전트 환경 생성을 위한 프레임워크
효율적인 환경 구축: 몇 줄의 설정 파일만으로 채팅방 같은 기본 다중 에이전트 환경을 손쉽게 만들 수 있어, 연구자가 실험과 분석에 집중할 수 있음.
맞춤형 컴포넌트: AgentVerse는 다중 에이전트 환경을 5개의 기능 모듈로 분리, 사용자가 복잡한 환경을 효율적으로 구성할 수 있도록 인터페이스를 제공함.
플러그인 활용: AgentVerse는 BMTools에서 제공하는 도구를 지원하여 다중 에이전트 환경을 더욱 강화함.
빠른 처리: InstaFlow는 Rectified Flow 기술을 통해 확산/흐름 과정을 빠르게 해결, 계산 자원의 수요를 크게 줄임.
초고속 추론: InstaFlow는 단일 단계 생성기로, 다단계 샘플링을 필요로 하지 않고 추론 시간을 약 90% 절약함.
효율적 훈련: InstaFlow는 세밀한 디테일과 높은 FID를 달성하며, 간단한 지도 학습만을 통해 훈련됨.
By BetaAI
© 2023