인공지능 시스템이 환각을 일으키는 이유

오늘날 인공지능(AI)은 가상 비서, 스마트 홈 기기, 의료 진단, 자율 주행 자동차의 형태로 작동합니다. 하지만 이 중요한 기술의 발전과 함께 ‘인공지능 환각’이라는 문제가 발생하고 있습니다.

인공지능 시스템이 환각을 일으키는 이유는 무엇일까요?

간단히 말해, 인공지능 환각은 인공지능 시스템이 학습 데이터를 수집하는 과정에서 존재하지 않는 잘못된 정보를 생성하거나 추론하는 경우를 말합니다. 인공지능 환각을 해결하지 못하면 허위 사실을 유포하거나 편향된 판단을 내리는 등의 문제가 발생하여 경제적, 안전상의 문제가 발생할 수 있습니다. 인공지능 시스템이 환각을 일으키는 이유와 그 원인, 예방법에 대해 설명합니다.

인공지능 시스템의 환각은 대규모 언어 모델이 한 번도 본 적이 없거나 전혀 존재하지 않는 특징이나 사물을 관찰할 수 있을 때 발생할 가능성이 높습니다. 이로 인해 실생활에서 말이 되지 않는 잘못된 출력 정보를 생성하기도 하지만, 경우에 따라서는 스스로 인지한 패턴/사물을 기반으로 하는 경우도 있습니다.

즉, 인공지능 시스템은 모델이 잘못된 진술을 하거나 학습 데이터의 사소한 패턴과 편견에 의존하여 논란의 여지가 있는 답변을 생성하거나 방어할 때 환각을 일으키지만, 이는 더 높은 수준의 복잡성에서 발생합니다.

인공 지능 환각의 원인

인공 지능 시스템이 환각을 일으키는 몇 가지 주요 이유가 있습니다:

데이터 편향

누락된 데이터 및/또는 불완전하거나 편견/편향 요소가 포함된 학습 데이터 샘플은 인공지능이 공정성이나 편견을 판단할 방법이 없기 때문에 대부분의 모델에서 발생합니다.

예를 들어, 얼굴 인식 알고리즘이 백인이 아닌 얼굴을 인식하지 못하는 경우가 있었는데, 이는 이러한 편견에 기반하여 컴파일된 학습 데이터 세트가 원인이었습니다.

과적합

데이터베이스의 과도한 정보도 인공 지능 시스템이 착각을 일으키는 또 다른 이유입니다. 식별된 신경망과 관련된 몇 가지 문제는 제한된 데이터 세트의 패턴에서 학습하는 동안 오히려 너무 잡음이 많은 패턴을 ‘암기’하거나 ‘과적합’할 수 있다는 것입니다. 이는 결과적으로 훈련 중에 접한 것과 다른 입력에 노출될 때 환각을 일으킬 가능성이 높아집니다.

오류 누적

입력 데이터의 작은 오류나 노이즈는 계층적으로 처리된 형태로 확대되며, 예를 들어 수십억 개의 파라미터가 있는 대규모 트랜스포머 모델에서는 왜곡되거나 조작된 출력이 생성될 수 있습니다.

피드백 루프

환각 문제는 수정하지 않으면 자율 감독 시스템에서 더욱 복잡해질 수 있습니다. 예를 들어, 인공 지능은 신경망을 기반으로 사진을 생성할 수 있으며 딥페이크는 다른 인공 지능이 해당 정보를 진짜라고 믿게 만들 수 있습니다.

인공지능 환각으로 인한 피해 가능성

인공지능 환각은 심각한 문제를 야기합니다. 해결하지 않고 방치할 경우 발생할 수 있는 사례는 다음과 같습니다:

잘못된 정보

봇 인공 지능의 위조 특성과 진실성 결여로 인해 가짜 통계와 잘못된 정보가 널리 퍼져 사람들이 신뢰할 수 있는 데이터를 찾는 능력을 왜곡할 수 있습니다. 이러한 시스템은 저널리즘, 교육 또는 공공 정책 결정 영역에서 사용될 경우 크게 우려되는 부분입니다.

개인정보 침해

의료, 법 집행 등 해당 업무에 이러한 시스템이 적용될 경우, 관찰되지 않은 개인에 대한 민감한 개인 데이터가 사생활을 심대하게 침해하고 신뢰를 약화시킬 수 있습니다.

소외 계층에 대한 피해

앞서 언급했듯이 인공지능 데이터 세트에서 선택 편향은 사회적 약자 집단을 차별하고 사회 정의를 더 큰 문제로 만들 수 있다고 알려져 있습니다.

안전 위험

환각 인공지능은 자율주행 자동차나 의료 진단 기기에 대한 잘못된 정보나 가이드를 제공함으로써 사고, 부상 또는 잘못된 의료 결정을 초래할 수 있으며, 이는 인공지능 시스템이 불완전한 정보에 의존하기 때문에 발생할 수 있습니다.

경제적 비용

여러 시설과 서비스 제공에 환각 인공지능을 사용하여 혁신과 성장을 이루지 못하면 고객의 신뢰를 잃을 뿐만 아니라 관련 조직과 시설의 가치가 하락할 수 있습니다. 이러한 비용에 대한 가시적인 수치를 산정하는 것이 항상 가능한 것은 아니지만, 그 위험성은 너무도 큽니다.

인공 지능 환각 예방

다음은 연구자들이 인공지능의 환각을 예방하기 위해 취하는 사전 예방 조치입니다:

편향되지 않은 광범위한 데이터

선입견을 포함하지 않거나 사회의 한 부분을 다른 부분보다 선호하지 않는 훈련 데이터 세트를 수집하면 인공지능이 스스로를 잘 훈련하는 데 도움이 됩니다. 공개 데이터베이스를 정리하고 사실 확인을 거쳐 가짜 데이터가 확산되는 것을 방지해야 합니다.

데이터 사전 처리

심각한 관측값 제거, 데이터 익명화, 특징 감소 등과 같은 조치는 시스템에 공급하기 전에 데이터에서 노이즈와 원치 않는 패턴을 제거하는 데 도움이 될 수 있습니다.

모델 평가

인공 지능 시스템은 새로운 환각을 식별하기 위해 신중하게 설계된 새로운 평가 데이터 세트를 사용하여 지속적으로 점검해야 합니다.

모델 모니터링

인공지능의 원치 않는 응답을 설명하기 위해 모델 카드 또는 데이터 명세서와 같은 메커니즘을 통해 시간 경과에 따른 인공지능의 행동을 기록할 수 있습니다.

설명 가능한 인공 지능

주의도 맵 및 SHAP 값과 같은 방법론을 사용하면 모델이 해당 응답을 내놓은 이유를 이해할 수 있을 뿐만 아니라 무작위 패턴과 비교하여 패턴과 호환되는 특징을 기반으로 간단한 분석을 식별할 수 있습니다.

보수적인 배포

인공지능 시스템은 특정 영역에 국한되어야 하며, 인공지능이 안전하고 신뢰할 수 있으며 인간에 비해 두 배 더 공정한 대우를 받는다는 것이 입증될 때까지 인간이 사용을 감독하는 제한적이고 통제된 방식으로만 사용되어야 합니다.

인공지능이 지속적으로 사회적 이익을 창출하고 환각과 관련된 피해의 위험을 방지하려면 조직은 데이터와 모델 품질 문제를 미리 파악해야 합니다. 인공지능 환각 및 관련 오류로 인해 발생할 수 있는 심각한 결과를 피하기 위해 신중하고 책임감 있게 행동해야 합니다.

요컨대, 인공지능의 환각 위험은 이를 완화하기 위한 적절한 전략을 실행하면 통제할 수 있습니다. 그럼에도 불구하고 부정적인 결과를 피하려면 기술 개발자와 정책 변화에 영향을 미치는 사람들의 지속적인 관찰이 필요합니다. 이러한 공동의 시도가 있어야만 인간에게 긍정적인 영향을 미치는 동시에 인간을 보호할 수 있는 인공지능 시스템을 개발할 수 있습니다.

마지막으로 가장 자주 묻는 질문과 그에 대한 답변을 준비했습니다

인공지능 환각이란 무엇인가요?

인공지능 환각이란 인공지능 시스템이 데이터나 패턴을 잘못 해석하여 허위 또는 무의미한 정보를 생성하는 경우를 말합니다.