GenAI 시대의 금융 리스크 관리
생성 모델로 리스크를 관리하는 일은 전통적인 ML보다 더 어렵습니다. 시작하는 방법을 알아보세요. 이 글은 AI 번역본입니다. 오역이 의심되면 댓글로 알려주세요.
Created on September 15|Last edited on September 15
Comment
금융 기관들은 오랜 기간 동안 신용 대출, 사기 탐지, 시장 동향 파악, 그에 기반한 투자까지 다양한 분야에 기계 학습 모델과 전통적 AI를 활용해 왔습니다. 그러나 생성형 AI의 등장은 기존의 관행과 전통을 뒤흔들고 있습니다. 기초 모델은 금융 서비스 분야에 새로운 가능성, 더 나아가 전혀 새로운 활용 사례를 가져왔지만, 규제가 촘촘한 산업의 특성상 이러한 활용 사례는 신중하게 관리되어야 합니다.
이 글에서는 전통적 AI와 새롭게 진화하는 패러다임 간의 핵심 차이를 살펴보겠습니다. 이번 주 후반에는 금융 서비스 업계가 현재 GenAI를 어떻게 활용하고 있는지, 비결정론적 모델에서 모델 리스크 관리를 어떻게 고민해야 하는지, 그리고 혁신성과 컴플라이언스를 동시에 유지하기 위해 활용할 수 있는 도구들을 다룰 예정입니다.
전통적 AI와 생성형 AI의 핵심 차이점
수십 년 동안 금융 분야에서 활용되어 온 전통적 모델과, 오늘날 조직이 투자하고 있는 생성형 모델 사이에는 여러 가지 중요한 차이가 있습니다. 이 섹션에서는 그 대비점을 살펴보고, 이를 어떻게 지능적으로 다룰 수 있는지 알아보겠습니다.
데이터와 범위
전통적 모델은 명확한 목적에 맞춰 신중하게 범위를 정한 데이터로 학습됩니다. 예를 들어 사기 탐지용 데이터베이스에는 대개 수많은 정상 거래, 소수의 사기 거래, 그리고 모델의 과적합을 방지하기 위한 합성 사기 데이터가 포함됩니다. 이러한 데이터셋은 방대할 수 있지만, 동시에 특정 목적에 특화되어 맞춤화되어 있습니다.
기초 모델을 학습시키는 데이터셋은 규모가 비교할 수 없을 만큼 훨씬 큽니다. 사실상 인터넷 전체에 해당하는 방대한 데이터로 학습되며, 설계상 훨씬 더 범용적입니다. 동일한 기초 모델이 다양한 작업을 해결하거나 해결을 돕도록 프롬프트로 유도할 수 있습니다.
이것은 우열의 문제가 아니라 단지 차이일 뿐입니다. 많은 조직이 전통적인 사기 탐지 모델을 기초 모델과 함께 사용합니다. 예를 들어 기초 모델은 정적이거나 규칙 기반이 아니며, 방대한 데이터로 학습되었다는 점 덕분에 전통적 모델보다 더 미묘한 방식으로 새로운 패턴을 포착하거나 특정 사용자의 정상적인 행동을 이해할 수 있습니다.
소유권
대부분의 조직은 GPT 같은 기초 모델을 처음부터 학습시킬 팀이나 예산이 없습니다. 이런 작업은 수개월에서 수년에 걸쳐 진행되며 수천만 달러의 비용이 들고, 그럼에도 불구하고 내부 팀이 현재 이용 가능한 최첨단 모델의 성능에 도달하고 이를 유지하기는 어렵습니다.
이러한 이유로 대부분의 기관은 Llama 계열과 같은 오픈소스 모델이나 GPT와 같은 상용 브랜드 모델을 사용합니다. 오픈소스 모델은 기반 데이터나 파라미터에 관한 일부 통찰을 제공하는 경우가 많은 반면, 폐쇄형 모델은 일반적으로 이러한 정보를 제공하지 않는다는 점은 주목할 만합니다.
어떤 기초 모델을 사용하든, 특정 사용 사례에 맞는 맥락 정보를 제공해야 합니다. 예를 들어, 파인튜닝은 해당 도메인에서 모델 성능을 높이는 데 도움이 될 수 있습니다. 이 부분은 뒤에서 조금 더 다루겠지만, 거버넌스 관점에서는 보다 신중할 필요가 있습니다. GenAI 모델을 처음 도입할 때는 이들이 무엇에 강점이 있는지, 그리고 어떤 작업에서는 전통적 모델이 더 잘 수행하는지를 파악하는 동안 조심스럽게 시작하는 것이 좋습니다.
설명 가능성
전통적 모델은 복잡한 신경망을 쓰더라도 설명 가능성이 더 높았습니다. 예를 들어, 일부 특성과 동작을 이해하기 위해 대체 모델을 만들어 볼 수 있었죠. 기초 모델의 경우에는 모델이 의도대로 작동하는지를 보여 주기 위해 경험적 데이터, 모델 출력, 유사한 근거에 더 의존하게 됩니다. 개별 출력을 면밀히 살펴보는 것이 도움이 될 수 있지만, 대개는 개선하려는 지표 모음이나 진행 상황을 측정할 수 있는 관련 벤치마크를 정해 두는 편이 바람직합니다.
이런 이유로 기초 모델은 방대한 텍스트 데이터 집합을 탐색하는 등 내부 용도로 자주 배치됩니다. 이들은 엄청난 양의 텍스트를 이해하는 데 매우 뛰어나며, 외부 고객이 사용하는 애플리케이션이 마주칠 수 있는 유형의 규제 장벽에 부딪힐 가능성도 낮습니다. 그렇다고 고객이 직접 상호작용하는 GenAI 애플리케이션을 사용할 수 없다는 뜻은 아닙니다. 다만 내부 프로세스 중 어떤 부분을 간소화하거나 개선할 수 있을지 반드시 검토해야 합니다.
GenAI 시대의 거버넌스와 모델 리스크 관리(MRM)
모델 리스크 관리는 금융 서비스 분야에서 일반적인 관행입니다. 대부분의 조직에는 모델을 개발하는 전담 팀이 있고, 이들이 만든 모델은 리스크 관리 팀에 전달되어 해당 모델이 원치 않는 또는 잠재적으로 불법적인 제안이나 결정을 내릴 위험을 평가하고 측정합니다.
다음과 같은 법률은 주목할 가치가 있습니다: 미 연준 감독 서한 SR 11-7 생성형 AI를 명시적으로 언급하지는 않습니다. 기술이 아직 너무 새롭기 때문입니다. 현재로서 우리가 참고할 수 있는 가장 좋은 지침 중 일부는 NIST AI 600-1는 2024년 여름에 발행되었습니다. 이 프레임워크는 위험을 기술적 위험(모델 오작동, 환각), 오용 위험(사이버 공격이나 허위정보 유포와 같은 악의적 사용), 사회적 위험(환경적 영향이나 윤리적 우려) 등으로 분류합니다. NIST AI 600-1은 조직이 이러한 위험을 완화할 수 있도록 거버넌스, 투명성, 콘텐츠 관리에 관한 400건이 넘는 구체적 권고를 제시하며, AI 시스템을 보다 안전하고 책임 있게 만들기 위한 로드맵을 제공합니다.
종합적으로 보면, 기초 모델은 효율성과 ROI를 높일 수 있는 전혀 새로운 경로를 열어 주지만, 전통적 모델과는 다른 새로운 유형의 위험도 함께 가져옵니다. 아래 목록이 400개 권고안을 모두 담을 수는 없지만, 위험을 완화하기 위해 미리 취할 수 있는 몇 가지 적극적인 조치가 있습니다.
데이터 사용 및 보존 정책 업데이트
기초 모델을 학습시키는 데 사용된 기본 데이터에 대해서는 감독할 수 없겠지만, 여러분이 투입하는 데이터에 대해서는 감독할 수 있습니다 안으로 이러한 모델. 여기에는 기초 모델을 파인튜닝하는 데 사용하는 모든 데이터셋이 포함될 수 있으며, 특히 최종 사용자가 이 모델에 보내는 모든 프롬프트가 포함됩니다.
결국 기초 모델의 가장 큰 장점 중 하나는 사용을 위한 진입 장벽을 낮춘다는 점입니다. 소프트웨어 엔지니어와 비기술 사용자 모두 LLM 기반 애플리케이션과 상호작용하여 데이터베이스를 조회하고, 의사결정을 보조하고, 금융 문서를 작성하고, 대출 신청자를 조사하는 등 수십 가지 용도로 활용할 수 있습니다. 각 상호작용을 추적하는 일은 모델 성능과 거버넌스 관점 모두에서 매우 중요합니다. 몇 페이지 뒤에서 이를 위한 일부 도구를 살펴보겠습니다.
MRM의 정의를 확대하고 더 많은 이해관계자를 포함하세요
대부분의 경우, 기존 머신러닝 모델의 위험을 평가하는 데에는 MRM 팀만으로도 충분했습니다. 이들은 정성적 위험, 모델 아키텍처, 모델이 내리는 결정, 그리고 모델 학습에 사용된 기본 데이터를 검토할 수 있었습니다.
기초 모델을 사용할 때는 상황이 달라집니다. 결국 MRM 팀은 전통적 모델에서 의존하던 많은 정보를 확보하기 어렵습니다. 이에 따라 많은 조직이 새로운 프레임워크와 위원회를 구성하고 있으며, 법무 및 컴플라이언스 부서의 의사결정자, 데이터 사이언스 팀, AI 윤리 위원회, 그리고 모델 출력의 타당성을 검증할 수 있는 분야별 전문가들을 폭넓게 참여시키고 있습니다.
모든 기초 모델에 이렇게 많은 이해관계자가 필요한 것은 아니라는 점을 기억해 둘 가치가 있습니다. 예를 들어 SEC 공시 문서 데이터베이스를 구축하고 이를 조회·이해하기 위한 GenAI 앱을 내부적으로 사용하는 사례는 그만큼의 감독이 거의 필요하지 않을 수 있습니다. 많은 금융 기관이 고객에게 영향을 줄 수 있는 자율적 의사결정 애플리케이션을 도입하기보다 이러한 내부 솔루션을 빠르게 구축하는 이유도 여기에 있습니다. 물론 전자의 애플리케이션도 배포할 수는 있지만, 규제 압력을 더 쉽게 받을 가능성이 높은 만큼 더욱 면밀한 검증과 광범위한 추적이 수반되어야 합니다.
팀을 교육하세요
전통적인 AI에서는 많은 내부 사용자가 모델의 작동 방식까지 알지 않아도 사용할 수 있었습니다. 예를 들어, 팀은 모델이 금리를 정확히 어떻게 산출했는지 몰라도 차용자의 금융 이력과 정보를 바탕으로 대출을 제공할 수 있었습니다. MRM 팀의 모델 승인만으로 충분했습니다.
생성형 AI에서는 내부 사용자가 출력물을 어떻게 활용해야 하는지 교육해야 합니다. 즉, 부분적으로는 이러한 모델과 그 위에서 동작하는 애플리케이션이 어떻게 사용되는지에 대해 빠르고 촘촘한 피드백 루프를 마련해야 한다는 뜻입니다. 이는 다시 한 번 이러한 모델을 내부 지향적으로 배포하고, 전통적 접근법을 기초 모델로 보완하려는 현재의 선호로 이어집니다.
사용자에게 알리세요
GenAI 애플리케이션이 사용자 지향이라면, 고객이 대화형 에이전트와 상호작용하고 있음을 알리는 것이 대체로 현명합니다. 이는 특히 에이전트가 처리하기 어려운 미묘한 질문에 대해 사용자가 직원에게 연락할 수 있는 흐름을 함께 제공하거나, 사용자가 단순히 두 번째 의견을 원할 때 직원과 연결될 수 있게 할 경우 위험을 줄여 줍니다.
GenAI를 활용하기 위한 간단한 기준표
모든 상황에 통용되는 단일 해법은 없지만, 일반적으로 기초 모델을 사용할 때는 세 가지 중요한 요소를 고려해야 합니다. 아래 질문들 가운데 하나라도 “예”라면 이니셔티브를 포기하라는 뜻이 아니라, 더 보수적인 접근을 취하고 구축 및 배포 과정에서 앞선 섹션의 지침을 함께 고려하라는 의미입니다.
애플리케이션이 고객 지향인가요?
고객 지향 애플리케이션은 더 세심한 주의가 필요합니다. 챗봇 같은 것이라도 철저히 테스트하여, 고객이 원치 않는 질문에 답변을 억지로 끌어내지 못하도록 하고, 제공해서는 안 되는 상품을 제안하지 않도록 해야 합니다.
규제상 시사점이 있나요?
규제와 연관된 비즈니스 영역에 닿는 모든 기초 모델은 설명 가능하고 투명해야 합니다. 또한 미세 조정 데이터세트, 프롬프트 입력, 그리고 조사 가능한 모델 출력에 대해 오래 지속되는 기록 시스템을 갖춰야 합니다.
의사결정이 자동화되어 있나요?
자동화된 의사결정 에이전트의 동작도 매우 엄격하게 테스트해야 합니다. 예를 들어, 어떤 애플리케이션이 고객의 신용도나 금융 안전에 직접적인 영향을 미칠 수 있는 방식으로 작동한다면, 해당 애플리케이션을 지속적으로 테스트하고 개선해야 합니다.
위의 조건 중 하나라도 해당되는 시스템이라면, 내부 분야 전문가를 활용해 모델의 효과성을 평가하고 성능을 더 높일 수 있도록 방향을 잡아 주는 것이 권장됩니다.
결론
다음 주 후반에 실제 사례와, 규정을 준수하면서도 조직의 혁신을 돕는 도구들을 소개해 드리겠습니다. 그동안 관련 글들도 편하게 살펴보세요:
Add a comment