[CSF 중국전문가포럼] AI 시대, 중국 데이터 정책 동향의 이해

4차 산업혁명 시대의 핵심 기술인 AI 기술이 국가 경쟁력과 직결되고 있다. ChatGPT로 촉발된 AI 기술 개발 이슈는 비즈니스 영역을 넘어서, 국가의 핵무기 보유와 비견될 만큼 안보 차원에서도 그 중요성이 커지고 있다. 이처럼 중요한 AI 기술을 발전시키기 위해서는 AI 모델이 학습할 수 있는 데이터가 확보되어야 한다. 통상 학습하는 데이터가 많을수록 성능이 향상되기 때문이다.

2024년 4월 1일 월스트리트저널(WSJ) 보도에 따르면, AI 개발 기업들이 학습용 데이터 부족으로 인하여 어려움을 겪을 수 있다는 관측이 제기되었다. OpenAI가 개발 중인 GPT-5는 GPT-4에 비해 8배 이상의 데이터가 필요할 것으로 추산되는데, 현재 사용 가능한 학습용 데이터의 양은 이에 미치지 못할 것으로 예측됐다. 1)  최근 AI 반도체가 그 수요를 따라가지 못해 기술 개발에 있어서 장애 요인으로 작용하고 있는 것과 같이, 데이터가 부족하여 AI 개발 속도가 둔화될 수 있는 시기가 멀지 않았다는 것을 의미한다. 

이에 AI 개발에 사활을 걸고 있는 빅테크는 AI 학습용 데이터 확보에 사활을 걸고 있다. 2024년 4월 6일 뉴욕타임즈(NYT) 보도에 따르면, OpenAI는 GPT-4 개발이 한창이던 2021년, 기존에 수집한 학습용 데이터가 고갈될 위기에 처하자 유튜브(YouTube) 및 팟캐스트(Podcast) 콘텐츠를 무단으로 수집·사용하였다. 2) 당시 OpenAI 담당자는 저작권 침해 가능성을 인지하고  있었으나, AI를 학습시키는 것은 정당한 이용 목적에 해당한다고 생각하여, 이 같은 행위를 하였다는 것이 밝혀졌다. 더 놀라운 사실은 유튜브 를 운영하는 구글도 OpenAI의 행위를 인지하고 있었지만, 구글 역시 일부 유튜브 콘텐츠를 자사 AI 개발에 사용하였기 때문에 이를 묵인하였다는 주장도 확인되었다.

그렇다면 AI 시대에 그 중요도가 점차 높아지고 있는 데이터는 누구의 것이며, 어떻게 권리를 주장할 수 있을 것인가? 이를 이해하기 위해 ‘데이터 소유권론’을 간략히 살펴보겠다.

<전문은 링크 참조>