11월 세번째 주 AI 뉴스

November 14, 2023

이번주 AI 뉴스 📰


AI 기반 뇌 스캔 분석, 알츠하이머 유전자 발견 가능성 제시

  • 알츠하이머 연구에 AI 접목: 연구자들이 AI 기반 접근법을 개발하여 알츠하이머 질병과 연관된 유전자를 식별하는데 도움을 줄 수 있음.

  • 알츠하이머의 뇌 이미지 바이오마커 활용: 이 방법은 알츠하이머 질병의 새로운 신호를 뇌 스캔에서 찾아내는데 기여할 수 있으며, 유전 정보를 포함한 대규모 데이터베이스에 적용될 수 있음.

  • AI 기술의 진보와 도전: AI 모델은 다양한 인종 및 지역적 다양성을 포함한 데이터에 기반해야 하며, 다른 데이터베이스에서의 일관된 결과를 보여줄 필요가 있음.

유튜브, AI 생성 음악에 대한 아티스트 목소리 모방 신고 옵션 도입

  • AI 음악에 대한 유튜브 대응: 유튜브는 음악 레이블과 배급사가 아티스트의 고유한 목소리를 모방한 콘텐츠를 신고할 수 있는 도구를 도입.

  • AI 생성 음악에 대한 새로운 지침: 레코드 회사는 아티스트 목소리의 AI 생성 버전을 사용하는 음악을 유튜브에서 제거할 수 있도록 요청할 수 있음.

  • 유튜브의 개인정보 신고 절차 업데이트: 유튜브는 식별 가능한 개인의 얼굴이나 목소리를 시뮬레이션한 AI 생성 또는 기타 합성 콘텐츠에 대한 제거 요청을 받아들일 예정임.

엔비디아, 대규모 AI 시스템 처리를 위해 플래그십 칩 업그레이드

  • 엔비디아의 새로운 AI 칩 H200: 엔비디아는 인공지능을 위한 최고급 칩에 새로운 기능을 추가하여, 다음해부터 아마존, 구글, 오라클과 함께 출시할 예정임.

  • H200 칩의 향상된 기능: H200은 현재 최고급인 H100 칩을 능가하며, 주요 업그레이드는 더 많은 고대역폭 메모리를 포함하여 더 빠르게 데이터를 처리할 수 있음.

  • AI 서비스에 대한 영향: 더 높은 대역폭 메모리와 빠른 연결로 인해 AI 서비스가 더 빠르게 응답을 생성할 수 있게 될 것임.


이번주 AI 논문 📝

To See is to Believe: GPT-4V를 사용한 더욱 정밀한 시각적 지시 데이터셋 개발

  • GPT-4V를 이용한 더 정확한 시각 지시 데이터셋: 이 연구는 이미지를 기반으로 GPT-4V를 사용해 만든 220K의 정밀한 시각적 지시 데이터셋, LVIS-Instruct4V를 소개함.

  • 향상된 시각적 지시 데이터의 중요성: 이 고품질 시각적 지시 데이터는 다양한 벤치마크에서 대규모 다중모달 모델 LLaVA-1.5의 성능을 뚜렷하게 향상시킬 수 있음.

  • LVIS-Instruct4V의 실질적인 성과: LVIS-Instruct4V를 사용함으로써 LLaVA 모델보다 더 좋은 성능을 여러 어려운 벤치마크에서 달성함.

GOAT: 다목적 이동 로봇 시스템의 혁신적인 내비게이션

  • GOAT 시스템 소개: GO To Any Thing (GOAT)은 가정과 창고와 같은 환경에서 사용되는 이동 로봇을 위한 범용 내비게이션 시스템으로, 다양한 모드로 목표를 인식하고, 지속적인 환경 학습 및 다양한 로봇 플랫폼에 적용 가능함.

  • GOAT의 주요 특징: GOAT는 카테고리 라벨, 대상 이미지, 언어 설명을 통해 설정된 목표에 대응하며, 과거 경험을 활용해 성능을 향상시키고, 다양한 로봇에 신속하게 적용될 수 있음.

  • GOAT의 성과 및 응용 가능성: 실험에서 GOAT는 83%의 전체 성공률을 달성하여 이전 방법보다 32% 향상된 결과를 보여주었으며, 물건 집기 및 사회적 내비게이션과 같은 하류 작업에도 적용 가능함.

Music ControlNet: 다양한 시간 변화 제어를 통한 음악 생성

  • 음악 생성 모델의 진화와 정밀 제어: Text-to-music 모델들이 다양한 스타일의 고품질 음악 오디오 생성이 가능해졌으나, 시간에 따라 변하는 속성들의 정밀한 제어에는 한계가 있었음. 이에 Music ControlNet이라는 새로운 방법을 제안함.

  • 시간 변화 제어 기법의 도입: Music ControlNet은 이미지 분야의 ControlNet 방식과 유사하게, 시간에 따라 변하는 제어를 위한 방법을 제안함. 이를 통해 멜로디, 역동성, 리듬 등을 정밀하게 제어할 수 있음.

  • 성능과 혁신성의 입증: 이 모델은 기존 음악 생성 모델인 MusicGen과 비교하여 입력된 멜로디에 더 충실하며, 더 적은 데이터와 파라미터로도 추가적인 시간 변화 제어가 가능함. 이를 통해 창작자들이 시간적으로 부분적으로 지정된 제어를 입력할 수 있는 새로운 전략을 개발함.


이번주 AI 프로덕트 📦

잠재 일관성 모델: 고해상도 이미지를 몇 단계 추론으로 합성

  • 고속 추론을 위한 새로운 접근: 잠재 일관성 모델(LCMs)은 잠재 확산 모델(LDMs)의 느린 반복 샘플링 과정을 극복하고, 기존에 훈련된 LDMs(예: Stable Diffusion)에서 최소한의 단계로 빠른 추론을 가능하게 함.

  • 잠재 공간에서의 직접적 해결 방법: LCMs는 확률 흐름 ODE(PF-ODE)를 통한 가이드된 역 확산 과정을 잠재 공간에서 직접적으로 예측함으로써, 몇 단계의 추론으로 매우 빠른 추론을 달성함.

  • 효율적인 훈련과 추론: 고품질 768x768 LCM은 Stable Diffusion에서 추출되며, 단지 32 A100 GPU 훈련 시간(8 노드에서 4시간)만으로 2~4 단계 추론이 가능함.

draw-a-ui: 모의 그래픽으로 HTML 생성하는 앱

  • 간편한 HTML 생성 앱: draw-a-ui는 사용자가 그린 와이어프레임을 기반으로 HTML을 생성하는 앱으로, tldraw와 GPT-4 Vision API를 활용함.

  • 작동 원리: 현재 캔버스의 SVG를 PNG로 변환한 후, 해당 PNG를 GPT-4 Vision API에 전송하고 Tailwind가 적용된 단일 HTML 파일을 반환받음.

  • 제한 사항 및 사용 용이성: 이 앱은 데모 버전으로 생산용으로는 적합하지 않으며, 인증이 없어 배포 시 비용이 발생할 수 있음. 별도의 로그인 절차 없이 사용 가능함.

By BetaAI

© 2023