본문 바로가기
수다

[AI] chat-GPT, 난 좀 무섭다 (2)

by loudy23 2023. 3. 1.
728x90
반응형

선인가 악인가

선용된다면 엄청난 유익이 되는 것이 맞지만, 우려할 부분도 있습니다. 

 

챗 GTP는 다음에 어떤 단어가 올지를 확률로 계산해서 짐작합니다. 그런데 확률이 필요하지 않은 부분에서는 어처구니없을 정도로 약한 모습을 보입니다. 예를 들어 다섯 자리 이상의 덧셈, 뺄셈은 웹에 데이터가 없으니 10% 이하의 확률을 보입니다. 이 시스템으로는 더하기 빼기의 원리를 이해한 것이 아니고, 5조 개의 문서에서 긁은 데이터를 가지고 어떤 확률로 배치되는가를 짐작하는 것이기 때문입니다. 

 

참과 거짓을 분별하지 못한다.

이 방식의 인공지능이 피할 수 없는 것이 하나 있습니다. 바로 참과 거짓을 구분하지 못한다는 것입니다. 

에피소드 하나 소개합니다.

한 의사가 가상의 환자 진단결과를 넣었습니다.

 "35세 여성이고, 흉통이 있고, 피임약을 복용하고 있고, 숨 쉴때 고통이 심하다고 한다. 병명이 무엇인가?" 질문했습니다.

챗 GTP가 "늑연골염일 가능성이 크다"고 대답했습니다. 의사가 보기에 맞는 진단이었습니다.

한 번 더 물어보니 "폐색전증일 수도 있다"라고 대답했습니다. 여기까지 훌륭했습니다.

그런데 갑자기 챗 GTP가 말하기를 "늑연골염이 경구피임약 복용으로 유발될 수 있다"라고 말했습니다. 완전 거짓입니다.

의사가 물어봅니다. "근거는 무엇인가?" 

챗 GTP 가 어느 학술지에 관련 논문이 있고, 그 논문 번호까지도 대답합니다. 그런데 모두 거짓이었습니다. 아예 없는 논문이었습니다. 

 

 왜 이런 결과가 나오냐면, 챗 GTP는 이다음 단어에 나올 가장 그럴듯한 단어를 찾기 때문입니다. 참인지 거짓인지를 뽑아내는 기계가 아니라 가장 그럴듯한 대답을 뽑아내는 기계이기 때문입니다. 거짓말을 아주 그럴듯하게 한다는 것입니다.

이러한 오류를 할루시네이션이라고 합니다. 

 

모차르트의 첼로협주곡에 대해서 물으니, 다섯개를 대답하면서 연대별로 구분하기까지 합니다. 그런데 모차르트의 첼로 협주곡은 남아있는 것이 없습니다. 그런데 챗 GTP은 왜 이렇게 대답했을까요? 그렇게 해야 그럴듯하기 때문입니다. 정답을 뽑아내는 기계가 아니라 가장 그럴듯한 대답을 뽑아내는 기계이기 때문에 그렇습니다. 

 

이것은 매우 심각한 문제입니다. 

이런 오류가 1%만 된다고 하더라도, 그 동안 99%가 맞아왔기 때문에 사람들은 당연히 그 1%를 신뢰할 것입니다. 그래서 모든 결정을 AI에 맞기게 되면, 그 1%의 가능성으로 인류의 위기를 맞이할 수 있는 것입니다. 

 

인터넷 생태계의 황폐화

인터넷 생태계가 황폐화 될 수밖에 없습니다. 오리지널이 사라지기 때문입니다. 무엇이 원본인가를 알 수 없습니다. 그렇게 되면 학습데이터가 오염됩니다. 학습한 5조 개의 문서 중 3조 개가 챗 GTP가 토해낸 것이라면 어떨까요? 

거기에 클릭 하이재킹이 일어납니다. 챗 GTP가 요약본의 답을 보여주면, 원본 링크를 찾아가는 사람은 거의 없을 것입니다. 결국 챗 GTP를 사용한 문서만 인터넷에 쌓이게 될 것입니다. 

 

2020년 12월에 윤리연구가 Gebru가 구글에서 해고되는데, 한 편의 논문때문이었습니다. 그는 그의 논문에서 대규모 언어모델(LLM)에 대해서 문제제기를 합니다. 

 - 환경 및 재정적 비용

 - 왜곡된 내용, 편견된 내용을 막을 수 없다.

 - 인터넷에 대한 접근성이 낮고 언어적 영향력이 작은 나라의 규범과 언어, 지식 모두가 사라지게 된다.

 - 할루시네이션

 

.

.

.

 

LIST