[산업] 케이사인, 악성코드 분야 AI 데이터셋 4억 건 구축

케이사인이 인텔리전스 전문기업 샌즈랩 및 안티바이러스 전문기업 이스트시큐리티와 약 4억 건의 사이버보안 AI 학습용 데이터셋 구축을 완료했다. 회사는 멀웨어즈닷컴(malwares.com)에서 분석한 20억 건의 악성코드 분석 데이터 가운데 대표성을 띈 3억개의 악성코드를 추출하고, 악성코드 특징 정보를 바탕으로 300여 종을 별도 분리했다.

구축된 데이터셋은 총 150여종의 메타정보 및 원시데이터를 포함한다. 또한 공격그룹, 공격기법, 유포방법 등 악성코드 속성정보에 대한 고차원으로 연관관계 분석을 실시해 1억건의 악성코드 분석 데이터도 함께 마련했다. 정적/동적 분석만으로 도출할 수 없는 심층정보를 속성으로 생성해 유사도 분석을 수행하고, 클러스터링 한 결과를 기반으로 한 데이터셋이다.

신대균 케이사인 프로젝트 매니저는 “규모가 작은 중소기업의 경우, 노하우와 자원 부족으로 악성코드 관련 메타 데이터를 추출해내기 어렵다”며 “한국인터넷진흥원과 케이사인 컨소시엄의 노력으로 국내 사이버 보안산업 전반에 활용할 수 있는 악성코드 관련 핵심 데이터셋을 성공적으로 구축하게 돼 뜻깊다”고 밝혔다.

한편, 이렇게 확보한 사이버보안 AI 학습용 데이터셋은 한국인터넷진흥원 사이버보안빅데이터센터를 통해 민간에 개방될 예정이다. 비전문가 집단도 인공지능 모델을 만들어 시험할 수 있는 이미지와 그램데이터 등 악성코드에서 추출한 다양한 메타 데이터와 MITRE ATT&CK T-ID 매핑 등 글로벌 트렌드에 맞춘 최신 데이터셋이 포함돼있다.

김현동 다른기사 보기