본문 바로가기

테크니컬 라이팅

AI가 작문 숙제를 대신해줄 수 있을까?

반응형

What Grades Can AI Get In College? 라는 글에 대한 내용입니다.

관련 외신 보도를 국내 언론에서도 일부 다루긴 했는데, 원본 자료를 보는 것이 좀 더 궁금한 점을 해결해주지 않을까 싶네요.

www.eduref.net/features/what-grades-can-ai-get-in-college/

 

What Grades Can AI Get in College?

We hired a panel of professors to create a writing prompt and gave it to a group of recent grads, undergraduate-level writers, and Artificial Intelligence.

www.eduref.net

당연한 이야기지만, AI는 사실적 관계에 대해서는 탁월한 결과를 보여주었습니다. 테크니컬 라이터에게는 위험한 신호가 될 수 있겠죠.

However, GPT-3’s writing skills were mostly technical. When tested with a place narrative prompt for a creative writing course, GPT-3 failed. In comparison, one freelance writer earned an A, while the other two earned a B+ and D+.
그러나 GPT-3의 작문 능력은 대부분 기술적이었습니다. 장소를 서술하는 과제로 창의적 작문 테스트에서 GPT-3는 실패했습니다. 이에 비해 작가 그룹 중 한 명은 A를 받았으며 다른 두명은 B+, D+를 받았습니다.

낮은 평가를 받은 부분은 서사에 관한 부분입니다. 물론 그렇다고 AI가 서사에 약하다고 할 수는 없습니다. 창의적인 작문이라는 것이 어쩌면 이전 경험이 표현되는 것인데 이 글에서는 AI가 어느 정도의 학습을 했는지 보여주지 않고 있습니다. 과제를 작성하는데 20-30분 정도 걸렸다는 것을 보면 그 정도의 시간만 학습을 한 이후 글을 작성한 것일수도 있습니다.

작성한 글에 대한 문법이나 구성 등에 피드백은 인간 작가 그룹과 큰 차이가 없습니다. 사용하는 단어의 차이가 있긴 하지만 두 그룹 모두에서 사용한 단어는 일상적인 표현이며 AI가 학습한 범위 내에서 수집된 단어의 차이가 아닌가 싶습니다.

While 49.2% of comments on GPT-3’s work were related to grammar and syntax, 26.2% were about focus and details. Voice and organization were also mentioned, but only 12.3% and 10.8% of the time, respectively. Similarly, our human writers received comments in nearly identical proportions. Almost 50% of comments on the human papers were related to grammar and syntax, with 25.4% related to focus and details. Just over 13% of comments were about the humans’ use of voice, while 10.4% were related to organization.
GPT-3가 작성한 글에 대한 피드백의 49.2%가 문법 및 구문과 관련이 있는 반면, 26.2%는 초점과 세부 사항에 관한 것입니다. 표현이나 구조도 언급되었지만 각각 12.3%와 10.8%에 불과했습니다. 마찬가지로 작가 그룹도 거의 동일한 비율로 피드백을 받았습니다. 작가 그룹의 글에 대한 피드백의 거의 50%가 문법 및 구문과 관련이 있었고 25.4%는 초점 및 세부 사항과 관련이 있었습니다. 피드백의 13% 이상이 표현에 관한 것이었고 10.4%는 구성과 관련이 있었습니다.

창의적 과제에 대한 피드백은 오감을 통합하는 내러티브가 부족하다는 것이었습니다.

For GPT-3, the feedback was more diverse. While GPT-3 was praised for some excellent openings and transitions, it was criticized for being vague, too blunt, and awkward. GPT-3 also slipped up with its citations, at one point not providing references at all. But the awkward writing, lack of citations, and bluntness didn’t cause GPT-3 to fail – it’s inability to craft a strong narrative did. GPT-3’s F-rated assignment received comments calling the writing cliche, too personal, and bland. The AI failed to craft a strong narrative incorporating the five senses, and telling-not-showing essays don’t cut it in creative writing classes.
GPT-3에 대한 피드백은 다양했습니다. GPT-3는 훌륭한 오프닝과 전환으로 칭찬을 받았지만 모호하고 너무 무뚝뚝하고 어색하다는 비판을 받았습니다. GPT-3는 또한 인용 출처를 작성하지 않았다는 피드백을 받았습니다. 그러나 어색한 글쓰기, 인용 부족, 무뚝뚝 때문에 GPT-3가 실패한 것은 아닙니다. 문제는 강력한 내러티브를 만들 수 없었던 점에 있습니다. GPT-3의 F등급 과제는 글쓰기의 진부하고 너무 개인적이며 평범하다는 의견을 받았습니다. AI는 오감을 통합하는 강력한 내러티브를 만들지 못했고, 'telling-not-showing' 과제물은 창의적 글쓰기 수업에서 탈락했습니다.

 

Photo by Andraz Lazic on Unsplash

 

"telling-not-showing"는 아마도 "Show, Don't tell"를 거꾸로 설명한 것 같습니다. 미국 대학 입학생들은 자기소개서를 쓸 때 중요하게 평가하는 항목이라 작가 그룹에게는 익숙한 것이겠지만, AI에게는 낯선 것일 수 있습니다. 우리말로는 이걸 딱히 표현하는 말이 없는건지, 찾지 못하는 건지 잘 보이질 않습니다. 

en.wikipedia.org/wiki/Show,_don't_tell

 

Show, don't tell - Wikipedia

Show, don't tell is a technique used in various kinds of texts to allow the reader to experience the story through action, words, thoughts, senses, and feelings rather than through the author's exposition, summarization, and description. It avoids adjectiv

en.wikipedia.org

 

한국 대입에서 자기소개서는 여러 제약이 있고 사실 중심으로 서술하는 것을 요구받기 때문에 내러티브를 만들기는 쉽지 않을 듯 합니다.

  • 자기소개서는 지원자 본인이 작성하여야 하고, 사실에 입각하여 정직하게 지원자 자신의 능력이나 특성, 경험 등을 기술하여야 합니다.
  • 고등학교 재학기간 중 학업에 기울인 노력과 학습 경험을 통해, 배우고 느낀 점을 중심으로 기술해 주시기 바랍니다.
GPT-3 output was lightly edited for length and repetition, but not for content, fact-checking, or grammar. Our analysis was limited to four subject areas, with three to four written submissions each. Analyzed text for GPT-3 included roughly 2,600 words and for humans, roughly 5,500 words. The findings in this article are limited by these small sample sizes and are for exploratory purposes only, and future research should approach this topic in a more rigorous way.
GPT-3가 작성한 내용은 길이와 반복 방식에 대해 약간의 개입이 있었지만, 내용이나 사실 확인 또는 문법에 대해서는 관여하지 않았습니다. 우리의 분석은 4개의 주제 영역으로 제한되었으며 각각 3-4 개의 과제물을 받았습니다. GPT-3에 대한 분석 텍스트에는 약 2,600 단어가 포함되었으며 인간의 경우 약 5,500 단어가 포함되었습니다. 이 기사에서 다루는 결과는 작은 샘플 크기로 제한되며 탐색 목적으로만 사용되됩니다. 향후 연구에서는이 주제에 보다 엄격한 방식으로 접근해야 합니다.

이번 시도는 살짝 간을 보는 정도라서, AI가 작정하고 덤빈다면 점점 경험이 많은 교수들도 이를 구분하기 어려울 겁니다.

 

* AI가 작성한 창의적 과제는 아래 링크에서 볼 수 있습니다.

www.eduref.net/wp-content/uploads/2021/01/GPT-3_creative_writing.pdf

I remember the moment when I first stepped onto the campus of Yale University. I remember the smell of freshly cut grass and the sharp autumn breeze. I remember the warm sun on my face, and my heart beating fast with excitement as I was surrounded by thousands of students just like me.

 

음. 이 정도도 "Show, Don't tell"는 부족한 글이군요 ㅠㅠ

 

 

 

 

728x90