Home

About

Projects

Blog

Newsletter

Contact

1월 네번째 주 AI 뉴스

January 24, 2024

이번주 AI 뉴스 📰

MIT 연구: 대부분 직업에서 인간이 AI보다 여전히 저렴

AI 대체의 비현실성: MIT 연구에 따르면, 대부분의 직업에서 인간 노동을 AI로 대체하는 것은 현재로서는 비용이 많이 든다고 밝혀짐.
기술적 한계와 비용 문제: AI는 패턴 인식과 이미지 분석에서 뛰어나지만, 설치 및 유지 관리 비용이 많이 들고, 직관과 정서적 지능을 요구하는 작업에서는 인간에 미치지 못함.
자동화 가능성의 제한: 일부 산업에서는 AI의 자동화 잠재력이 증가할 수 있으나, 현재로서는 '기계가 우리의 일자리를 빼앗을 것'이라는 주장은 과장된 면이 있음.

음성 복제 스타트업 ElevenLabs, 8000만 달러 투자 유치 성공

투자 유치 및 시장 가치 상승: AI 기반 음성 복제 도구 개발 스타트업 ElevenLabs가 8000만 달러의 투자를 유치하며 기업 가치가 10억 달러를 넘어섬.
기술 개발과 윤리적 고려: ElevenLabs는 제품 개발, 인프라 및 팀 확장, AI 연구에 투자하고 AI 기술의 책임감 있고 윤리적인 개발을 위한 안전 조치 강화 계획.
산업 내 논란과 도전: ElevenLabs의 음성 복제 기술은 산업 내에서 목소리 배우들의 권리와 AI 음성 생성의 윤리적 문제에 대한 논란을 야기.

OpenAI, 대학과의 첫 파트너십 발표

혁신적인 대학 파트너십: OpenAI가 고등교육 기관과의 첫 파트너십을 발표, 애리조나 주립대학교(ASU)가 ChatGPT Enterprise에 완전한 접근 권한을 얻음.
교육 및 연구 목적 활용: ASU는 코스워크, 튜터링, 연구 등을 위해 이 도구를 사용할 계획이며, 개인화된 AI 튜터 개발 및 창의적 학습 지원에 중점을 둠.
데이터 보안 및 개인정보 보호: OpenAI와 ASU는 ChatGPT 사용으로부터 학생의 개인정보 및 지적 재산 보호를 위한 '사적인 벽돌 정원 환경 (private walled-garden environment)'을 제공할 것임을 강조.

마크 저커버그, 인공 일반 지능(AGI) 개발에 집중.. AGI 개발 경쟁 합류
Bing Chat 추가 후 Bing의 시장 점유율 1% 미만 증가
Amazon, 유료 버전 AI 음성 비서 'Alexa Plus' 여름 출시 예정 하지만 내부 정치로 연기?

이번주 AI 논문 📝

자가 보상 언어 모델 연구

자가 피드백의 중요성: 미래 AI들이 초인간적인 에이전트가 되기 위해서는 초인간적인 피드백이 필요.
LLM-as-a-Judge 메커니즘: 언어 모델 자체가 훈련 중 자가 보상을 제공하는 새로운 접근 방식.
성능 향상 입증: 이 방식으로 훈련된 Llama 2 70B 모델이 기존 시스템들을 능가하는 성능을 보임.

비전 맘바: 양방향 상태 공간 모델을 이용한 효율적인 시각적 표현 학습

시각적 데이터의 새로운 접근: 맘바 블록을 이용한 새로운 시각적 표현 학습 방법 제안.
효율적인 성능 향상: 기존 시각 변환기보다 우수한 성능 및 컴퓨팅 효율성 입증.
다양한 작업에서의 우수성: ImageNet, COCO, ADE20k 작업에서 높은 성능과 메모리 효율성 보임.

Depth Anything: 대규모 비표시 데이터의 잠재력 해방

단순하고 강력한 모델: 단순한 구조로 모든 이미지에 대응하는 강력한 기반 모델 개발.
데이터 확장 전략: 약 62M의 규모 비표시 데이터를 수집 및 주석을 통해 데이터 범위 확장.
제로샷 능력 평가: 여러 데이터셋과 무작위 사진에서 뛰어난 일반화 능력을 보임.

이번주 AI 프로덕트 📦

시각적 아나그램: 다중 시점의 착시 현상 생성을 위한 확산 모델 활용

광학 착시 이미지 생성: 이미지가 뒤집기나 회전 같은 변환 시 모습이 달라지는 다중 시점 광학 착시 이미지를 합성하는 문제 해결.
간단한 제로샷 방법: 기존 텍스트-이미지 확산 모델을 사용하여 이러한 착시 현상을 제로샷 방식으로 얻음.
이론적 분석 및 확장 가능성: 이미지가 픽셀 재배열 하에 모습을 바꾸는 '시각적 아나그램'을 포함하며, 이 방법은 두 개 이상의 시점을 가진 착시에도 확장 가능.

멀티모달 LLM을 활용한 텍스트-이미지 확산 기술

새로운 프레임워크 'RPG': 복잡한 텍스트 프롬프트를 이미지로 변환하는 새로운 방식 제안.
이미지 생성의 단순화: MLLM을 사용해 복잡한 이미지 생성을 간단한 작업으로 분해.
향상된 일반화 능력: 텍스트 기반 이미지 생성과 편집을 통합, 다양한 모델과의 호환성 보임.

By BetaAI

© 2023