4차 산업혁명 시대의 핵심 기술인 AI 기술이 국가 경쟁력과 직결되고 있다. ChatGPT로 촉발된 AI 기술 개발 이슈는 비즈니스 영역을 넘어서, 국가의 핵무기 보유와 비견될 만큼 안보 차원에서도 그 중요성이 커지고 있다. 이처럼 중요한 AI 기술을 발전시키기 위해서는 AI 모델이 학습할 수 있는 데이터가 확보되어야 한다. 통상 학습하는 데이터가 많을수록 성능이 향상되기 때문이다.
2024년 4월 1일 월스트리트저널(WSJ) 보도에 따르면, AI 개발 기업들이 학습용 데이터 부족으로 인하여 어려움을 겪을 수 있다는 관측이 제기되었다. OpenAI가 개발 중인 GPT-5는 GPT-4에 비해 8배 이상의 데이터가 필요할 것으로 추산되는데, 현재 사용 가능한 학습용 데이터의 양은 이에 미치지 못할 것으로 예측됐다. 1) 최근 AI 반도체가 그 수요를 따라가지 못해 기술 개발에 있어서 장애 요인으로 작용하고 있는 것과 같이, 데이터가 부족하여 AI 개발 속도가 둔화될 수 있는 시기가 멀지 않았다는 것을 의미한다.
이에 AI 개발에 사활을 걸고 있는 빅테크는 AI 학습용 데이터 확보에 사활을 걸고 있다. 2024년 4월 6일 뉴욕타임즈(NYT) 보도에 따르면, OpenAI는 GPT-4 개발이 한창이던 2021년, 기존에 수집한 학습용 데이터가 고갈될 위기에 처하자 유튜브(YouTube) 및 팟캐스트(Podcast) 콘텐츠를 무단으로 수집·사용하였다. 2) 당시 OpenAI 담당자는 저작권 침해 가능성을 인지하고 있었으나, AI를 학습시키는 것은 정당한 이용 목적에 해당한다고 생각하여, 이 같은 행위를 하였다는 것이 밝혀졌다. 더 놀라운 사실은 유튜브 를 운영하는 구글도 OpenAI의 행위를 인지하고 있었지만, 구글 역시 일부 유튜브 콘텐츠를 자사 AI 개발에 사용하였기 때문에 이를 묵인하였다는 주장도 확인되었다.
그렇다면 AI 시대에 그 중요도가 점차 높아지고 있는 데이터는 누구의 것이며, 어떻게 권리를 주장할 수 있을 것인가? 이를 이해하기 위해 ‘데이터 소유권론’을 간략히 살펴보겠다.
<전문은 링크 참조>