banner
홈페이지 / 소식 / 대부분의 AI 훈련 데이터는 내년까지 합성될 수 있습니다.
소식

대부분의 AI 훈련 데이터는 내년까지 합성될 수 있습니다.

Jun 09, 2023Jun 09, 2023

합성 데이터를 사용하면 순수 유기 데이터로 가능한 것보다 더 큰 데이터 세트에서 AI 모델을 훈련할 수 있습니다.

라이언 모리슨

기계 학습 모델을 훈련하는 데 사용되는 대부분의 데이터는 합성되어 자동으로 생성될 것이라고 Gartner의 새로운 보고서는 예측합니다. 2021년 전체 AI 훈련 데이터 중 합성 데이터는 1%에 불과했지만 분석가들은 2024년 말까지 60%에 도달할 수 있다고 제안합니다. 한 전문가는 이 데이터가 유기적 데이터와 동일한 문제를 겪지 않도록 하려면 편향에 대한 거버넌스와 경계가 필수적이라고 Tech에 말했습니다. 감시 장치.

의료 영상이나 특정 질병 패턴에 대한 정보 등 실제 정보에서 누락된 공백을 메우기 위해 AI가 합성 데이터를 생성합니다. 이번 주에 발표된 데이터 과학 동향에 대한 새로운 연구에서 Gartner는 2024년까지 모든 AI 모델 교육 데이터의 60% 이상이 합성 데이터가 될 것이라고 예측합니다. 이는 더 나은 AI 시스템으로 이어질 것이라고 말합니다.

유기적 훈련 데이터에서 합성 훈련 데이터로의 이동은 대규모 언어 및 기초 모델을 생성하는 데 사용되는 것과 같은 데이터 중심 AI로의 광범위한 전환의 일부입니다. Gartner의 보고서는 “AI 관련 데이터 관리, 합성 데이터, 데이터 라벨링 기술과 같은 솔루션은 접근성, 볼륨, 개인 정보 보호, 보안, 복잡성 및 범위를 포함한 많은 데이터 문제를 해결하는 것을 목표로 합니다.”라고 밝혔습니다.

GlobalData의 최근 보고서에 따르면 합성 데이터 스타트업이 "데이터 생성 환경을 재정의"하고 있는 것으로 나타났습니다. 글로벌데이터(GlobalData)의 파괴적 기술 실무 책임자인 키란 라지(Kiran Raj)는 이를 “AI 미래를 위한 마스터 키”라고 설명하면서 스타트업들이 데이터 품질과 규제의 족쇄를 깨고 있다고 말했습니다. Raj는 “신뢰할 수 있고, 비용 효율적이며, 시간 효율적이며, 개인 정보를 보호하는 데이터에 대한 수요가 계속해서 가속화됨에 따라 스타트업은 합성 데이터를 기반으로 하는 미래를 구상하여 기계 학습 발전의 새로운 시대를 열 것입니다.”라고 말했습니다.

다양한 분야에 걸쳐 긍정적인 영향을 미칠 가능성이 있습니다. 의료 분야에서는 의사 교육, 약물 발견 개선, 시스템 최적화를 위해 실제 환자 데이터를 늘리는 데 이미 사용되고 있습니다. 금융 서비스 부문에서는 위험을 완화하고 사기를 탐지하는 데 도움이 됩니다. 그리고 소매 부문에서는 수요 예측, 개인화된 마케팅 및 사기 탐지를 개선하고 있습니다.

Gartner가 지적한 다른 주요 트렌드에는 AI의 엣지 프로세싱으로의 전환이 포함됩니다. 보고서에 따르면 생성 시점에서 데이터를 처리하면 조직이 실시간 통찰력을 얻고 새로운 패턴을 감지하는 데 도움이 됩니다. 또한 더욱 엄격해진 데이터 개인 정보 보호 요구 사항을 더욱 쉽게 충족할 수 있습니다. 조직에서는 2025년까지 신경망을 통한 데이터 분석의 55% 이상이 엣지 시스템에서 이루어질 것으로 예측합니다.

Gartner 분석가들은 책임 있는 AI가 더욱 강조될 것이라고 예측합니다. 여기에는 기술이 사회에 대한 위협이 아닌 긍정적인 힘으로 사용되도록 보장하는 것이 포함됩니다. 여기에는 사회적 가치, 위험, 신뢰, 책임 및 투명성을 다루는 AI를 채택할 때 기업이 윤리적인 선택을 하도록 보장하는 것이 포함됩니다. 이는 영국을 포함해 전 세계적으로 개발 중인 많은 AI 규정을 구성하는 핵심 요구 사항입니다.

분석가들은 조직이 AI 투자 및 배포에 대해 "위험 비례 접근 방식"을 채택해야 한다고 경고했습니다. 여기에는 솔루션과 모델을 적용할 때 주의를 기울이고 공급업체가 자체 위험 및 규정 준수 의무를 관리하고 있는지 확인하는 것이 포함됩니다. 이는 재정적 손실과 법적 조치로부터 그들을 보호하는 데 도움이 될 것입니다.

일부 기반 모델 및 생성 AI 조직은 이러한 위험에 대해 어느 정도의 면책을 제공하고 있습니다. Adobe는 Firefly 생성 AI 이미지 모델 사용으로 인한 저작권 청구와 관련된 비용을 부담할 것이라고 밝혔습니다. 이는 저작권이 의심되는 출력을 생성하지 않는 라이선스 및 승인된 데이터에만 모델이 훈련되었다고 회사가 확신하기 때문입니다.

Gartner의 이사 분석가인 Peter Krensky는 다음과 같이 말했습니다. “산업 전반에 걸쳐 기계 학습 채택이 계속 빠르게 증가함에 따라 데이터는 예측 모델에만 초점을 맞추는 것에서 보다 민주적이고 역동적이며 데이터 중심적인 분야로 진화하고 있습니다. 이는 이제 생성 AI에 대한 열정에 힘입어 이루어졌습니다. 잠재적인 위험이 나타나고 있는 동시에 데이터 과학자와 조직을 위한 많은 새로운 기능과 사용 사례도 나타나고 있습니다.”