새로운 데이터 관리 서비스인 ‘아마존 데이터존(Amazon DataZone)’이 공개됐다. AWS, 온프레미스, 서드파티 소스에 저장된 데이터를 더 빠르고 쉽게 분류, 검색, 공유, 관리할 수 있는 서비스로 엔지(ENGIE), 폭스 코퍼레이션(Fox Corporation), 이타우(Itaú) 등이 도입했다.
조직은 여러 부서, 서비스, 온프레미스 데이터베이스, 서드파티 소스(예: 파트너 솔루션이나 퍼블릭 데이터 세트)에 분산된 페타바이트, 심지어 엑사바이트의 데이터를 수집한다. 때문에 관리자와 담당자는 적절한 사람만 적절한 컨텍스트 내에서 데이터에 액세스할 수 있도록 제어와 거버넌스를 유지해야 한다.
하지만 조직 전체에서 다양한 데이터, 부서, 사용 사례 등을 모두 고려한 거버넌스 정책 구현은 어려운 일이다. 일부 기업은 정보를 큐레이팅하기 위해 카탈로그를 구축하지만 이러한 시스템은 유지, 관리하는 데 시간이 많이 소요되고, 데이터 생산자가 각 데이터 세트를 검색 가능하도록 추가 컨텍스트(예: 출처 및 설명)를 수동으로 레이블을 지정해야 한다.
데이터 소비자가 필요한 정보를 찾더라도 카탈로그에서 직접 소유자에게 접근 승인을 요청하고 데이터를 분석 서비스에 로드해 다른 사람과 협업하는 형태를 의미한다. 결과적으로 의사 결정자는 필요한 정보를 적시에 얻을 수 없거나, 불완전 또는 오래된 데이터를 기반으로 잘못된 결정을 내릴 수 있다.
아마존 데이터존은 데이터 생산자가 데이터에 대한 접근성을 보다 쉽게 관리, 제어하고 데이터 소비자가 데이터를 검색, 사용 및 협업하여 비즈니스 인사이트를 도출할 수 있도록 하는 데이터 관리 서비스다.
생산자는 아마존 데이터존의 웹 포털을 사용하여 데이터 분류 체계를 정의하고 거버넌스 정책을 구성하며 다양한 AWS 서비스(예: 아마존 S3, 아마존 레드시프트), 파트너 솔루션(예: 세일즈포스, 서비스나우)과 온프레미스 시스템에 연결함으로써 자체 비즈니스 데이터 카탈로그를 설정한다.
카탈로그가 설정되면 데이터 소비자는 아마존 데이터존 웹 포털을 사용하여 데이터 자산을 검색 및 발견하고, 컨텍스트에 대한 메타데이터를 검사하며, 데이터 세트에 대한 접근을 요청할 수 있다.
데이터브릭스(DataBricks), 스노우플레이크(Snowflake), 태블로(Tableau)와 같은 파트너 또는 사용자 지정 솔루션과 통합할 수 있는 API(애플리케이션 프로그래밍 인터페이스)를 제공하므로 고객은 모든 데이터 자산을 쉽게 게시, 검색 및 사용할 수 있다.
By 김현동 에디터 Hyundong.Kim@weeklypost.kr
〈저작권자ⓒ 위클리포스트, 무단전재 및 재배포 금지〉

