취약점 발견에서의 AI: 사람의 감독과 신중한 접근 필요

Mar 13, 2026

Larry Cashdollar 그리고 Kyle Lefton

에 의해 작성

Larry Cashdollar

래리 캐시달러는 보안 분야에서 20년 이상 취약점 연구원으로 일해 왔으며 현재 Akamai 보안 인텔리전스 대응팀의 수석 보안 연구원으로 재직하고 있습니다. 래리는 서던 메인 대학교에서 컴퓨터 공학을 전공했습니다. 300개 이상의 CVE를 문서화한 경력을 바탕으로 BotConf, BSidesBoston, OWASP Rhode Island, DEF CON에서 리서치 결과를 발표했습니다. 여가 시간에는 야외 활동과 소형 엔진 재조립을 즐깁니다.

에 의해 작성

Kyle Lefton

카일 레프톤(Kyle Lefton)은 Akamai 보안 인텔리전스 대응팀의 보안 연구원입니다. 국방부의 인텔리전스 애널리스트였던 카일은 사이버 방어, 위협 리서치, 카운터 인텔리전스 부문에서 다년간 경력을 쌓았습니다. 자신 있는 분야는 새로운 위협 조사, 취약점 리서치, 위협 그룹 매핑 분야입니다. 여가 시간에는 친구, 가족과 함께 시간을 보내고 전략 게임과 아웃도어 하이킹을 즐깁니다.

취약점 발견에 AI를 사용하는 데는 상당한 이점과 리스크가 모두 따르며, 특히 오탐과 부정확한 취약점 보고서가 생성될 가능성이 높습니다.
AI에서 생성한 검증되지 않은 CVE가 유입되면 보안 데이터베이스를 압도하고, 리서치 프로세스에 대한 신뢰를 약화시키며, 진정한 위협으로부터 주의를 떨어뜨릴 수 있습니다.
curl의 버그 바운티 프로그램 중단과 같은 실제 사례는 저품질 AI에 기반한 제출의 작동상 문제와 부정적인 영향을 여실히 드러냅니다.
사람의 감독은 AI의 결과물을 검증하고, 정상적인 취약점만 보고하고, CVE 시스템의 무결성을 확보하는 데 매우 중요합니다.

끊임없이 변화하는 사이버 보안 환경에서 취약점 발견에 인공 지능(AI)을 적용하는 것이 강력한 툴로 부상했습니다. 그러나 이 툴은 다른 기술과 마찬가지로 신중하게 관리해야 하는 리스크를 수반합니다.

한 가지 중요한 우려 사항은 AI 시스템이 오탐을 생성해 잘못된 취약점(내용이 엉뚱한) 보고서가 유입될 가능성이 있다는 것입니다. 이렇게 검증되지 않은 결과물이 적절한 검증 없이 제출되면 잘못된 CVE ID가 많아져 실제 보안 위협을 탐지하는 작업이 복잡해질 수 있습니다.

취약점 탐지에 사용되는 AI의 특성

AI 툴은 코드와 시스템을 분석해 과거 CVE의 패턴과 데이터를 활용해 잠재적인 취약점을 탐지할 수 있습니다. 이러한 툴은 효과적일 수 있지만 오류가 있을 수 있습니다. 코드 스니펫을 잘못 해석하거나, 실제 악용과 관련이 없는 패턴을 잘못 탐지하거나, 문제가 아닌 것을 취약점으로 잘못 분류할 수 있고(즉, 파일이 정상인데 취약한 것으로 플래그를 지정), 이러한 경우는 모두 오탐으로 이어질 수 있습니다.

오탐 문제

AI 기반 취약점 탐지의 오탐은 다양한 방식으로 나타날 수 있습니다. AI 툴은 알려진 악용과 유사한 패턴을 탐지할 수 있지만 그것이 실제로 리스크를 초래하는지는 검증하지 못할 수 있습니다.

이러한 방식의 감독으로 인해 실제로는 취약점이 없는데도 새로운 CVE가 생성될 수 있습니다. 그런 다음 이러한 오탐이 MITRE에 제출될 경우 별 의미가 없는 취약점에 CVE ID가 할당될 수 있습니다.

검증되지 않은 제출의 결과

잘못된 CVE의 확산은 심각한 영향을 미칠 수 있습니다. 이러한 ID는 CVE 데이터베이스를 어수선하게 만들어 실제 보안 문제를 탐지하고 해결하기가 더 어려워질 수 있습니다. 이로 인해 정보 과부하가 발생하고 실제 취약점을 해결하는 데 효율성이 떨어질 수 있습니다. 악의적인 공격자가 이 시스템을 악용해 자신의 목적을 위해 CVE ID를 생성할 수 있으며, 이는 보안 환경을 더욱 복잡하게 만듭니다.

또한 오탐 취약점은 기업 또는 벤더사에 대한 평판과 소비자 신뢰를 훼손할 수 있습니다. 제품 또는 플랫폼에 위험한 버그가 많이 있는 것으로 인식되면 고객은 해당 제품이 기업에 너무 높은 리스크를 초래한다고 생각하고 벤더사 전환을 고려할 수 있습니다.

또한, 벤더사와 협업하거나 확인하지 않은 미검증 취약점이 공개되면 불필요한 작업이 많이 발생하고 기업의 리소스가 마비될 수 있습니다. 예를 들어, PR 부서는 상황을 해결하기 위해 신속하게 성명을 발표해야 할 수 있고, 백엔드의 엔지니어는 수많은 주장을 조사하고 검증하기 위한 절차를 서둘러 진행해야 합니다.

실제 사례

curl 유틸리티는 AI 저품질 버그 보고서로 인해 버그 바운티 프로그램을 중단했습니다. 취약점 연구자들이 새로운 취약점을 발견할 때 AI를 사용함에 따라 이는 더욱 심각한 문제가 될 것으로 판단됩니다. 이 새로운 AI 기술은 검증 가능하고 정상적인 버그를 발견할 수도 있지만, 정상이든 아니든 개발자와 벤더사는 모든 버그 보고서를 조사해야 하므로 검증 속도를 늦춥니다.

저품질 AI에서 생성된 버그 보고서가 유입되면서 curl의 버그 바운티 프로그램이 종료됨에 따라, 개발자와 벤더사가 정상적인 취약점을 검증하고 해결하는 과정에서 직면하는 문제가 여실히 드러나고 있습니다. 이러한 상황에서는 수많은 부정확한 AI 기반 보고서를 사람이 분류해야 하므로 검증 프로세스가 더욱 느려집니다.

또한 이번 중단은 기여자의 의욕을 떨어뜨리고 다른 기업도 이러한 사례를 따르도록 영향을 미침에 따라 보안 문제 탐지에 사용할 수 있는 리소스의 전반적인 축적 속도를 떨어뜨릴 수 있습니다.

이 문제를 해결하려면 보고서 필터링 및 검증을 위한 향상된 시스템이 필요합니다. 개선된 시스템은 버그 바운티 프로그램이 AI의 기여를 관리하고 제출물의 품질과 신뢰성을 보장하는 데 도움을 주는 방식을 변화시킬 수 있습니다.

AI 생성 사례

다음 그림은 Claude Code에서 생성된 샘플로, 제가 리버스 엔지니어링한 Vivotek 펌웨어와 관련된 것입니다. 사용자가 제공한 인풋은 문자열이 아닌 정수이므로 인젝션 명령어를 사용할 수 없어 취약점을 악용할 수 없습니다.

OS Command Injection in apply_ipfilter_rule()
CVSS score: 9.8 (CRITICAL)
CWE: CWE-78
Location: 0x0000a0cc

Description

Complex iptables rule construction with unsanitized IP range parameters passed to shell commands via popen().

Vulnerable code
// Constructs command like: /usr/sbin/confclient -s   ipfilter_ipv4list_0_"0;malicious;echo"
snprintf(PTR_DAT_0000a4fc, 0xff, PTR_s__sipfilter_ipv4list_i_d__s__s_____0000a530,    PTR_DAT_0000a4dc,      // confclient script
param_3,        // List index (user controlled)
param_1,       // IP range START (unvalidated)
param_2); // IP range END (unvalidated)
pFVar5 = popen(PTR_DAT_0000a4fc, "r");  // Passes to shell

Ghidra가 생성한 디컴파일된 코드

연구원의 역할: 사람의 감독이 중요

AI는 유용한 툴이지만, 사람의 전문 지식이 동반되어야 합니다. 기본 로직을 이해하지 않고 AI 툴을 사용하는 연구원은 오류를 누락하고 신뢰할 수 없는 결과를 도출할 리스크를 초래할 수 있습니다.

AI에만 의존할 수는 없습니다. 실제 취약점만 보고되도록 결과를 확인하고 검증하려면 사람의 감독이 필수적입니다.

리스크 방어

이러한 리스크를 방어하려면 보안 커뮤니티가 신중한 접근 방식을 도입해야 합니다. 연구자는 제출하기 전에 수동 분석과 실험을 통해 AI의 결과물을 검증해야 합니다.

또한 취약점 리서치에 AI를 책임감 있게 활용하기 위한 가이드라인도 수립해야 합니다. 이 가이드라인에는 필수 검증 단계와 연구자가 AI의 한계에 대한 이해도를 높일 수 있는 교육이 포함되어야 합니다.

더욱 광범위한 영향

커뮤니티는 취약점 발견에 AI를 사용함으로써 발생하는 기술적 문제뿐만 아니라 더 광범위한 영향에 직면해야 합니다. 저품질 CVE가 넘쳐나면 보안 리서치 프로세스에 대한 신뢰가 약화되어 심각한 취약점에서 주의를 떨어뜨릴 수 있습니다. CVE 시스템을 개발자와 기업을 위한 신뢰할 수 있는 리소스로 유지해 CVE 시스템의 무결성을 확보해야 합니다.

많은 기업에서는 벤더사 제품의 취약점을 발견하고 책임감 있게 공개한 후 취약점 연구자에게 버그 바운티 형태로 포상금을 지급합니다. 이러한 프로그램은 양쪽 당사자에게 큰 가치를 제공하지만 오탐 보고로 인해 어려움을 겪는 경우도 있습니다.