Socure가 기계 학습을 통해 사기에 맞서 싸우는 방법

"가중치 및 편향을 통해 우리 팀은 데이터 세트부터 교육, 생산 아티팩트에 이르기까지 모델 계보를 완전하고 완벽하게 이해할 수 있었습니다."

Edward Li
Head of Computer Vision Research

소큐어 소개

사기꾼은 기술을 좋아합니다. 스팸 전화와 문자, 항상 존재하는 스팸 이메일, NFT 사기 등, 우리의 상호 연결성은 광범위한 대상에 걸쳐 사기를 시도하는 것을 훨씬 저렴하게 만듭니다. 스팸 이메일을 잡는 필터나 봇을 걸러내는 CAPCHA와 같은 일부 보호 장치가 설정되면 사기꾼이 이미 열심히 일하고 있으며, 옆문이나 익스플로잇을 찾고 있다고 가정하는 것이 안전합니다. 사기꾼은 기술을 좋아할 뿐만 아니라 빠르게 움직입니다.
즉, 사기에 맞서려면 적절한 기술로 빠르게 움직여야 합니다. Socure 팀이 하는 일이 바로 그것입니다.
Socure는 구매자 신원과 정보를 지능적이고 정확하게 검증하는 다양한 제품을 제공하는 혁신적이고 매력적인 회사로, 오늘 이야기할 Predictive DocV (여기서 “V”는 검증을 의미)를 포함합니다. Predictive DocV는 다차원적이고 계층화된 신원 정보를 활용하여 정부에서 발급한 신분증과 셀카로 사용자의 신원을 검증하는 데 특화되어 있습니다. 즉, 8억 개의 알려진 양호한 신원과 불량 신원에 대한 업계 간 고객 피드백 데이터의 Socure의 끊임없이 확장되는 독점 데이터베이스에서 데이터를 분석하고 상관 관계를 지정하고 최첨단 컴퓨터 비전 기술을 적용하는 것을 의미합니다. 목표는? 몇 초 이내에 확실한 예측을 제공하는 것입니다.
그리고 그것은 효과가 있습니다. Socure는 Capital One, Chime, Poshmark 및 Wells Fargo와 같은 기관에서 사용됩니다. 오늘 우리가 답하고자 하는 질문은 Socure 팀이 우리 집 문앞에 있는 사기꾼으로부터 우리를 안전하게 지키기 위해 어떻게 일하는지에 대한 것입니다.

소개

우리는 Predictive DocV의 컴퓨터 비전 구성 요소에 집중할 것입니다. 이는 실제로 Socure의 사기 탐지에 대한 전체론적 접근 방식에서 더 최근의 구성 요소이기 때문입니다. 팀 자체는 1년 조금 넘었습니다.
이런 문제를 해결하려면 똑똑하고 민첩한 실무자로 구성된 훌륭한 팀을 구성해야 한다는 것은 말할 것도 없습니다. Socure에는 정확히 그런 것이 있습니다. 하지만 머신 러닝은 여전히 ​​빠르게 진화하는 분야이며 다양한 배경과 함께 다양한 도구와 라이브러리가 제공되어 다양한 팀과 실무자 간에 ML 워크플로가 활용되는 방식에 불일치가 발생합니다. 표준화는 팀의 효율성을 개선하고 모델이 재현 가능하도록 하는 데 최우선 순위였습니다.
Socure의 컴퓨터 비전 연구 책임자인 에드워드 리가 등장했습니다.
에드워드는 “우리의 철학은 여러분이 다른 사람들을 위해 코드를 작성한다는 것입니다.”라고 말했습니다. “그것은 단순히 고객이 사기를 더 잘 방지할 수 있도록 프로덕션 코드를 작성하는 것을 의미하는 것이 아니라, 여러분의 코드를 읽고 이해하는 것이 그들의 모국어로 된 기사를 읽는 것만큼 쉬운 팀원과 파트너를 위한 코드를 작성하는 것을 의미합니다.”
그들은 모든 성실한 팀이 할 일을 했습니다. 도구와 프레임워크를 테스트 운전하고 비교하고 대조했습니다. 모든 것을 말하고 마쳤을 때, 팀은 두 가지 우선순위를 정했습니다. PyTorch와 Weights & Biases를 중심으로 표준화하는 것입니다. 두 가지를 팀 전체에 고정하면 코드 검토가 더 빠르고 모델 학습이 더 빠르며 무엇보다도 프로덕션 시간이 더 빨라집니다. 사기 탐지와 같은 공간에서는 그 시간이 정말 중요합니다.

Socure가 가중치와 편향을 선택한 이유

Socure는 많은 반복을 합니다. 그들은 기계 학습으로 모델을 끊임없이 훈련하고 사기를 해결하기 위한 새로운 컴퓨터 비전 접근 방식을 시도합니다. 하지만 도입하기 전에는 모델을 비교하는 것이 힘들었습니다. 시간이 걸렸고 사과와 사과를 비교하고 있다는 확신을 갖기가 더 어려웠습니다. W&B로 이전한 후 모든 것이 바뀌었습니다. 팀은 빠르게 적응했고 갑자기 더 빨리 움직이며 더 많은 모델을 훈련하고 더 많은 실험을 비교했습니다. 모두가 같은 생각을 가졌습니다.
그리고 그들은 즉각적인 배당금을 보았습니다. Weights & Biases는 파이썬적이었습니다. 모델을 검토하기 쉬웠습니다. 성능은 이해하기 쉽고 우아하게 시각화되었습니다. W&B의 Artifacts와 같은 구성 요소는 수많은 용도로 팀 전체에서 재사용할 수 있었습니다. Edward는 이러한 구성 요소를 모델 성능을 이해하고 디버깅하기 쉽게 만드는 레고 블록에 비유합니다. 팀이 PyTorch를 채택함에 따라 가독성과 검토가 훨씬 더 빨라졌습니다. 그들은 W&B의 고유한 사용자 정의 기능에 기대어 특정 문제에 맞는 특정 워크플로와 대시보드를 구축했습니다. 게다가 W&B는 Hydra와 나머지 내부 스택과 잘 작동했습니다.
에드워드는 “Weights & Biases 덕분에 우리 팀은 데이터 세트에서 훈련, 프로덕션 아티팩트에 이르기까지 모델의 계보를 완벽하고 완전하게 이해할 수 있었습니다.”라고 말했습니다. “모델 구축 효율성이 15% 증가했고, 그 위에 하드웨어 비용도 약 15% 절감했습니다.”
팀에 대한 추가 보너스는 컴퓨터 비전 분야의 동료와 다른 이해 관계자에게 작업을 보여주는 것이 깔끔하고 쉬워졌다는 것입니다.  내부적으로는 방대한 데이터 세트의 작은 하위 집합에서 새로운 아이디어를 테스트하고 해당 접근 방식이 유망한지 즉시 파악할 수 있었습니다. 가장 좋은 아이디어에 더 빨리 기대고 덜 성공적인 아이디어는 넘어갈 수 있었습니다. 외부적으로는 사용자 지정 시각화와 차트를 만들고 어떤 모델이 사기를 가장 잘 예측하는지 보여줄 수 있었습니다. 다른 엔지니어와 기술에 덜 민감한 이해 관계자에게 소화하기 쉬운 방식으로 작업을 제시할 수 있었습니다. 그들은 더 빠르게 움직이고 더 투명하게 작업했습니다. Predictive DocV의 성능은 계속 향상되었습니다.
W&B는 배포 측면에서도 도움을 줍니다. 쉽게 액세스할 수 있는 키와 아티팩트가 있으면 모델을 쉽게 찾고 이해하고 배포할 수 있습니다. “Docker 이미지를 끌어오는 것과 같습니다.” 에드워드가 말했습니다. “배포가 빠르고 쉽습니다.”

결론

머신 러닝의 일부 구현은 참신하지만 많은 중요한 이점을 가져오지 않습니다. 예를 들어 얼굴을 만화 캐릭터로 바꾸는 GAN을 생각해 보세요. 하지만 Socure에서 머신 러닝은 엄청나고 광범위한 이점을 가져옵니다. 즉, 우리 모두를 사기로부터 보호합니다.
그리고 우리 모두가 알다시피 사기는 빠르게 움직입니다. 한 발 앞서 나가는 것이 가장 중요합니다. 협업이 핵심입니다. PyTorch와 Weights & Biases를 사용하여 머신 러닝 워크플로를 표준화하면 더 많은 모델을 더 빠르게 훈련하고 빠르고 자신 있게 배포할 수 있습니다. 그들의 팀은 똑똑하고 민첩하며 성장하고 있습니다. 그리고 그들은 모든 사람에게 이로운 중요한 일을 하고 있습니다. 그들이 우리 모두를 증가하는 사기 문제로부터 안전하게 지키도록 돕고 싶다면, 그들은 여러분의 의견을 듣고 싶어할 것입니다.