• Tidak ada hasil yang ditemukan

4-1. [연구문제 2-4-1] : 발화 횟수

: 발화 횟수

[연구문제 2-4-1]은 “MIM 매개 대화에서 발화 횟수는 어떻게 되는가?” 이다.

단위 발화 텍스트는 MIM 그룹 대화 로그에서 [발화 시각, 발화자, 발화 텍스트]로 구성되는 기본 단위이다. 발화 횟수는 이러한 단위 발화 텍스트의

갯수를 의미한다. 수집한 MIM 그룹 대화 로그 중 샘플링된 1 주일 사이에

생성된 단위 발화 텍스트의 갯수는 46999 개 이며, 각 그룹에서 단위 발화

텍스트의 갯수는 <그림 50> 과 같다.

<그림 50> 136개 그룹의 발화 횟수 위 <그림 50> 와 같이,

1) 136 개 그룹의 평균 발화 횟수는 346 회이며, 중위값 (68 번째 값)은

101회이다.

2) 가장 적은 발화 횟수를 갖는 그룹은 1회이며, 가장 많은 발화횟수를 갖는

그룹은 11166회의 발화를 갖고 있다.

이러한 결과는

1) 그룹 참여자와 발화 기간을 고려하지 않은 단순한 단위 발화 텍스트의 수

만으로는 그룹의 특성을 알기 어려움을 보여준다. 다만, 그룹 사이에 편차가 매우 클 수 있지만, 7 일 간의 평균 발화 횟수는 346 회, 하루 49 회, 시간당 2회 정도의 발화를 예상할 수 있다는 의미를 갖는다.

4-2. [연구문제 2-4-2] : 발화 길이, 발화 형식 비율, 발화 형식 전환 확률

[연구문제 2-4-2]은 “MIM 매개 대화에서 발화 길이, 발화 형식 비율, 발화

형식 전환 확률 등은 어떻게 되는가?” 이다.

평균 발화 길이는 구간 내에서 생성된 모든 텍스트 형식 발화 텍스트 길이의 평균을 의미한다. 발화 텍스트 중 시스템에 의해 자동적으로 생성되는 스티커, 이모티콘, 사진, 웹 링크, 앱 메시지, 앱 명령어 등은 텍스트 길이와 텍스트 의미 사이에 큰 관계가 없으므로 제외한다. 이렇게 남은 텍스트 형식

발화 총 44281 개에 대해서 발화 길이 기준으로 돗수 분포를 조사했다. 여기서

발화 길이는 MIM 그룹 대화 로그의 인코딩 형식인 UTF-8 를 지원하는 Python

문자열 길이 계산 함수의 결과 값을 기준으로 했다. 그 결과는 <그림 51> 과 같다.

<그림 51> 발화 길이 기준 돗수분포

위 <그림 51> 와 같이,

1) 텍스트 형식 발화 44281 개 중 가장 짧은 길이의 발화는 1 자의 길이를 갖고, 가장 긴 길이의 발화는 988자의 길이를 갖는다.

2) 평균 텍스트 길이는 9.2 자 이며, 중위값 (22140 번째 값)은 6 자 이다.

이러한 결과는

1) 짧아질 수록 더 많은 도수를 보이는 분포에서 1 자의 길이를 갖는 발화

보다 2 자의 길이를 갖는 발화가 두 배 이상의 발화 (2089:4843) 을 갖는 것은 1 자의 길이로 표현할 수 있는 발화가 많지 않기 때문이다.

[쳇,아,?,헉,힝,ㅋ,오,굿, ...] 등의 발화 보다는 [어때, 안돼, 쓴거, 왜?, 몰라, ㅇㅋ, ㅇㅇ, ㄱㅅ, ㅋㅋ, ...] 등의 발화가 더 의미가 분명하고 익숙함은 이러한 도수 분포의 차이로 나타났다.

발화 형식 비율은 구간 내에서 생성된 각 발화 형식의 발화 텍스트 사이의 비율을 의미한다. 본 연구에서 발화 형식은 [일반 텍스트, 스티커, 이모티콘, 사진, 웹 링크, 초대/퇴장, 앱 메시지, 앱 명령어] 등으로 구분하였다. 이를 위해 그룹 대화 로그 내용 분석을 실시했으며, 그 결과는 <표 28> 과 같다.

<표 28> 전체 발화 형식 비율

유형 일반 텍스트

스티커 이모티콘 사진 링크 초대 /퇴장

메시지 명령어

개수 44281 506 1197 790 38 149 35 3

비율 94.22 1.08 2.55 1.68 0.08 0.32 0.07 0.01

위 <표 28> 와 같이,

1) 총 46999 개의 단위 발화 텍스트 중 일반 텍스트는 44281 개 (94.22%) 이다.

2) 스티커는 506 개 (1.08%), 이모티콘은 1197 개 (2.55%), 사진은 790 개 (1.68%), 웹 링크는 38개 (0.08%) 이다.

3) 초대/퇴장 발화는 149 개 (0.32%), 앱 메시지는 35개 (0.07%), 앱 명령어는

3개 (0.01%) 이다.

이러한 결과는

1) 대부분의 발화는 키보드 입력을 통한 일반 텍스트로 구성됨을 알 수 있다.

별도의 모드로 전환해야 입력 가능한 이모티콘은 2.55%, 사용 이전에 구매

절차를 필요로 하는 스티커는 1.08% 로 더 낮은 비율을 보였다.

2) 사진 관련 발화가 스티커 발화보다 더 많이 발견된 것은, 대화 중 사진을

활용한 정보 전달, 의사 전달 등이 스티커 사용만큼 자주 있는 일임을 알려준다.

이러한 발화 형식 비율은 그룹 단위로 조사하여 비교할 수 있다. 그 결과는

<표 29> 와 같다.

<표 29> 그룹 단위 발화 형식 비율

특성 일반 텍스트 스티커 이모티콘 사진

전체 유형 비율 94.22 1.08 2.55 1.68

평균 이하 그룹 갯수 74 88 82 107 평균 이상 그룹 갯수 62 48 54 29

평균 이하 그룹 발화량 평균 169.4 392.4 270.2 326.7

평균 이상 그룹 발화량 평균 555.9 259.7 460.0 415.3

위 <표 29> 와 같이,

1) 총 136 개 그룹 중 일반 텍스트 비율이 평균 이하인 그룹은 74 개이며, 그

그룹의 발화량 평균은 169.4 회 이다. 그리고 평균 이상 그룹은 62 개 이며,

발화량 평균은 555.9 회 이다.

2) 스티커 비율이 평균 이하인 그룹은 88 개이며, 발화량 평균은 392.4 회

이다. 그리고 평균 이상 그룹은 48개, 발화량 평균은 259.7 회 이다.

3) 이모티콘 비율이 평균 이하인 그룹은 82 개이며, 발화량 평균은 270.2 회

이다. 그리고 평균 이상 그룹은 54개, 발화량 평균은 460.0 회 이다.

4) 사진 유형 발화 비율이 평균 이하인 그룹은 107 개 이며, 발화량 평균은

326.7 회 이다. 그리고 평균 이상 그룹은 29개, 발화량 평균은 415.3 회 이다.

이러한 결과는

1) 텍스트, 이모티콘, 사진의 경우, 발화 비율의 증가가 발화량 증가와 관계가 있음을 의미한다. 이에 반해, 스티커의 경우에는 발화 비율의 증가가 발화량의 감소와 관계가 있다.

2) 사진 유형 발화의 경우에는 평균 이상의 발화 비율을 보인 그룹이 29 개

(21%) 로 다른 발화 유형에 비해 편중되어 분포하는 것이 보인다. 이는 사진

유형 발화의 사용이 보편적이지 않고, 그룹 참여자의 속성에 영향을 받음을 의미한다.

발화 형식 전환은 이전 발화 형식과 이후 발화 형식의 순열로 구성된다.

발화 형식 전환 비율은 구간 내에서 발화 형식 전환 순열 기준으로 순열간 비율을 의미한다. 이를 위해 그룹 대화 로그 내용 분석을 실시했으며, 그중 전체 발화 형식 비율에서 1%가 넘는 [일반 텍스트, 스티커, 이모티콘, 사진]을

대상으로 발화 형식 전환 확률을 계산한 결과는 <표 30> 과 같다.

<표 30> 발화 형식 전환 확률

to 일반 텍스트 to 스티커 to 이모티콘 to 사진 총계 ()

from 일반 텍스트 42308 (95.8%) 374 (0.8%) 945 (2.1%) 411 (0.9%) 44171

from 스티커 388 (77.0%) 77 (15.3%) 33 (6.5%) 3 (0.6%) 504

from 이모티콘 913 (76.8%) 44 (3.7%) 202 (17.0%) 20 (1.7%) 1189

from 사진 418 (53.1%) 7 (0.9%) 10 (1.3%) 350 (44.5%) 787

위 <표 30> 와 같이,

1) 이전 발화가 일반 텍스트인 경우는 총 44171회이다. 이중 다음 발화 또한

일반 텍스트인 경우는 42308 회로 95.8%. 스티커인 경우는 374 회로 0.8%,

이모티콘인 경우는 945회, 2.1%, 사진인 경우는 411회 0.9% 이다.

2) 이전 발화가 스티커인 경우는 총 504 회이다. 이중 다음 발화가 일반

텍스트인 경우는 388 회, 77.0%, 스티커인 경우는 77 회 15.3%, 이모티콘인

경우는 33회 6.5%, 사진인 경우는 3회 0.6% 이다.

3) 이전 발화가 이모티콘인 경우는 총 1189 회이다. 이중 다음 발화가 일반

텍스트인 경우는 913 회 76.8%, 스티커인 경우는 44 회 3.7%, 이모티콘인

경우는 202회 17.0%, 사진인 경우는 20회 1.7% 이다.

4) 이전 발화가 사진인 경우는 787 회이다. 이중 다음 발화가 일반 텍스트인 경우는 418 회 53.1%, 스티커인 경우는 7 회 0.9%, 이모티콘인 경우는 10 회

1.3%, 사진인 경우는 350회 44.5% 이다.

이러한 결과는

1) 일반 텍스트, 스티커, 이모티콘, 사진 발화 사이에 응집력이 있음을

의미한다. 이전 발화가 일반 텍스트 인 경우에는 다음 발화도 일반 텍스트일

확률이 평균적인 일반 텍스트 발화 확률 (94.22%) 보다 높아지며, 이전 발화가

스티커인 경우에는 다음 발화도 스티커일 확률이 평균에 비해 14.15 배나

높아진다. 그리고 이전 발화가 이모티콘일 때에 다음 발화가 이모티콘일 확률은 6.66배 상승하고, 이전 발화가 사진일 경우에는 다음 발화도 사진 유형

발화일 확률이 26.47 배 상승한다. 이렇게 발화 유형별 발생 확률 변화는 다음

<표 31> 과 같다.

<표 31> 전체 기준 발화 형식 비율 대비 발화 형식 전환 확률의 비율

to 일반 텍스트 to 스티커 to 이모티콘 to 사진 from 일반

텍스트

1.02 0.78 0.84 0.55

from 스티커 0.82 14.15 2.57 0.35

from 이모티콘 0.81 3.43 6.66 1.00

from 사진 0.56 0.82 0.50 26.47

<표 31>을 보면, 스티커와 이모티콘 사이에도 응집력이 있음을 확인할 수

있다. 이전 발화가 스티커인 경우에는 다음 발화가 이모티콘일 확률도 2.57 배 상승하며, 이전 발화가 스티커인 경우에는 다음 발화가 이모티콘일 확률이 3.43배 상승한다.

4-3. [연구문제 2-4-3] : 발화 특성에 따른 그룹, 사용자 유형과 분포

[연구문제 2-4-3]은 “MIM 매개 대화에서 발화 특성에 따른 그룹, 사용자

유형과 분포는 어떻게 되는가?” 이다.

여기서 유형을 구분하는 기준은 발화 형식 비율이다. 각 발화 형식 비율을 평균과 비교하여 각 그룹의 유형을 구분했다. 유형 구분의 순서는 형식에 따른 발화량과 형식간의 연관성을 기준을 [일반 텍스트, 스티커, 이모티콘, 사진, 웹 링크, 초대, 앱 메시지, 앱 커맨드 순으로 했다. 그 결과는 <표 32> 과 같다.

<표 32> 발화 형식 비율에 따른 그룹 유형

특성 일반

텍스트

스티커 이모티콘 사진 링크 초대 메시지 커맨드

평균 비율 (%) 94.22 1.08 2.55 1.68 0.08 0.32 0.07 0.01

평균 이상 그룹 갯수

62 48 54 29 21 52 16 2

평균 이하 그룹 갯수

74 88 82 107 115 84 120 134

위 <표 32> 와 같이,

1) 일반 텍스트 비율을 평균 (94.22%) 이상으로 갖는 그룹은 전체 136 개 그룹 중 62개 였으며, 이하로 갖는 그룹은 74개 였다.

2) 스티커의 경우는 평균 이상 그룹은 48개, 이하 그룹은 88개 였다.

3) 이모티콘의 경우는 평균 이상 그룹이 54개, 이하 그룹은 82개 였다.

4) 사진의 경우는 평균 이상 그룹이 29개, 이하 그룹이 107개 였다.

5) 웹 링크의 경우는 평균 이상 그룹이 21개, 이하 그룹이 115개 였다.

6) 초대 관련 발화의 경우는 평균 이상 그룹이 52 개, 이하 그룹이 84 개 였다.

7) 앱 메시지의 경우는 평균 이상 그룹이 16개, 이하 그룹이 120개 였다.

8) 앱 커맨드의 경우는 평균 이상 그룹이 2개, 이하 그룹이 134개 였다.

이러한 결과는

1) 각 유형의 발화 텍스트가 얼마나 그룹 사이에 치우쳐 분포하는지를 판단하는 기준이 된다. 극단적으로 앱 커맨드의 경우는 평균 이상 그룹인 2 개 그룹에서만 발견 되었다. 일반 텍스트, 스티커, 이모티콘, 초대 발화 의 경우에는 비교적 그룹 사이에 고른 분포를 보이지만, 사진, 웹 링크, 앱 메시지, 앱 커맨드 등은 그룹 사이에 사용에 치우침이 있음을 알 수 있다.

Dokumen terkait