2. 음악 편


이하 그래프에는 영어로 쓰인 부분도 있는데 한국어 못 쓰는 사람도 보기 쉬우라고 그렇게 만듦. 그리고 파이썬에서 plot에 텍스트 입력하려고 해도 한글은 뭐가 잘 안 돼서 그렇게 한 이유도 있음. 이미 다른 사이트에는 올려 놓고 여기가 2번째임.


1. 팬덤

그래프 1-1.


그래프 1-2.


그래프 1-3.


그래프 1-4.


몇몇 부분 빼고는 큰 차이가 없었음. 일본 몇몇 지역에서 비율이 감소했지만, 일본 외 동아시아에서 크게 비율이 증가했고, 북미에서도 살짝 증가했음.


2. 캐릭터

득표수가 너무 적으면 분석 결과에서 왜곡되기가 쉬우니 116위 밑으로는 뺐음.(앨리스의 인형이나 그런 것들 나와서)

1) 최애 비율

그래프 2-1. 포인트 기준. 최애표는 2포인트로 계산됨.


그래프 2-2. 득표수 기준.


2) 연령 중심 분석

9세 미만 응답자들은 10~14세 응답자에 합쳐버렸음. 40세 이상 응답자들도 35~39세 응답자에 합쳐버렸음. 계급값들은 순서대로 12.5, 17.5, 22.5, 27.5, 32.5, 40을 사용함.(맨 마지막의 경우는 35~39세와 40세 이상의 비율이 비슷해져서 계급값을 37.5가 아니라 40을 씀)

그래프 3. 평균 연령.


그래프 4. 연령 집단별로 차지하는 표 비중.


그래프 5. x축은 투표자 나이가 전반적으로 20세 위냐 아래냐를 보여주고, y축은 전반적으로 15~24세 범위 안에 있냐 밖에 있냐를 보여줌. 점이 빨간색일수록 순위가 높은 캐릭터임.

설명되는 분산 비율=0.8754139838997618 (고유벡터 2개 x, y축으로 사용)

폰에서 잘 안 보이면 저장해서 봐주셈..1.34MB임


3) 성별 중심 분석

남녀가 아닌 그 외라고 응답한 비율은 아예 뺐음. 이 경우 남성 비율은 77.6% 정도가 됨.

※기본적으로 남성 비율이 높기 때문에 어떤 캐릭터가 상대적으로 여성에게 인기 있다고 해도, 그 캐릭터 투표자의 비율은 대부분이 남자임.

그래프 6-1. 남성 비율 자체 기준.


그래프 6-2. 남성 비율에서 벗어난 기준.(표준 오차 사용)


4) 연령과 성별 동시 고려

그래프 7. x축은 투표자 나이가 전반적으로 20세 위냐 아래냐를 보여주고, y축은 전반적으로 남성에게 인기 있냐 여성에게 인기 있냐를 보여줌. 점이 빨간색일수록 순위가 높은 캐릭터임.

x축에서 설명되는 분산 비율=0.7175193739647202 (고유벡터 1개만 x축으로 사용)

y축은 남성 비율 표준 오차 사용

폰에서 잘 안 보이면 저장해서 봐주셈..1.30MB임


5) 최애 비율과 연령, 성별은 관계가 있는가?

그래프 8-1. 평균 연령과 최애 비율 관계.

어떤 캐릭터의 최애 비율과 그 투표자들의 평균 연령은 약한 음의 상관관계가 있는 것 같음. 어린 사람들이 좋아하는 캐릭터일수록 그 캐릭터에 깊이 빠져들게 하는 요소가 많은 것임을 의미할 가능성이 있음.


그래프 8-2. 남성 비율 표준 오차와 최애 비율 관계.

성별과는 크게 관계가 없는 것 같음.


6) 주작이 있었는가?

그래프 9-1. 득표수 대비 설문 응답자 수 비율.



그래프 9-2. 득표수 대비 음악 투표자 수 비율.



그래프 9-3. 득표수 대비 작품 투표자 수 비율.

위의 그래프에서도 계속 나왔지만, 산뇨가 자꾸 이상치를 보여줘서 의심스러움. 주작을 한다고 치면 귀찮은 설문까지 다 할 필요가 없기 때문에 충분히 의심할 만함. 음악 투표와 작품 투표에서도 마찬가지로 산뇨는 비율이 낮았음.


7) 자의적으로 군집화 한 번 해본 것 (참고용)

그래프 5 편집. 나이를 축 2개로 해서 만든 그룹.

폰에서 잘 안 보이면 저장해서 봐주셈..1.62MB임


x축, y축을 해석한 것을 바탕으로, 그룹 1에서 그룹 5까지를 보면 투표자 나이가 증가하는 경향이 있을 거라고 해석할 수 있음. 그룹 6은 중립이랑 아래쪽 기타임. 그리고 그룹 3과 그룹 4, 그룹 4와 그룹 5는 경계가 꽤 애매했으니 이것도 고려해서 해석해야 함.

밑에서 캐릭터 이름 옆에 어느 그룹에 속하는지 기호를 붙여서 표시하겠음.

그룹 1그룹 2그룹 3
그룹 4
그룹 5
그룹 6
'''***#


그래프 7 편집. 나이와 성별을 각 축으로 해서 만든 군집.

폰에서 잘 안 보이면 저장해서 봐주셈..1.81MB임


왼쪽은 중앙에서 멀리 떨어져서 그 군집의 특성을 잘 나타낸다고 생각되는 캐릭터들이고, 오른쪽은 그 외 속하는 적당히 인기 있는 캐릭터들을 써놓음. 캐릭터 순서는 그룹 순서대로임. 같은 군집에 속해도 나이에 대해 더 자세히 분류해보면 좀 더 나뉘는 것 같음.


※집단별로 인구 자체의 비율 차이가 있기 때문에, 어떤 캐릭터가 위 그룹이나 군집에 속하는 것이 그 캐릭터 투표자의 대다수가 그 쪽에 속한다는 의미가 아니라, 그 캐릭터가 상대적으로 그 집단에게 어필할 만한 요소가 있다는 의미임.


군집 1. 저연령, 남성

요우무' / 코코로', 치르노', 사토리'', 스와코'', 우동게'', 사구메'', 시키에이키''

코코로의 경우는 그룹 2에 가까운 그룹 1이었음.


군집 2. 고연령, 남성

아야*, 텐시*, 코가사*, 사나에#, 모미지@ / 우츠호*, 스이카*, 카센*, 란**, 앨리스#, 니토리#

니토리의 경우는 그룹 6에 가까운 그룹 5였음.


군집 3. 고연령, 중립(살짝 남성 치우침)

유마** / 렌코*, 메리*, 오린**, 츠카사**, 메구무**, 유카리#, 뱌쿠렌#

메구무, 유카리, 뱌쿠렌은 그룹 기준으로는 경계 나누기가 애매할 정도로 가까웠음.


군집 4. 저연령, 여성

플랑', 사쿠야' / 마리사', 레밀리아', 루미아', 코이시'', 모코우''


군집 5. 중립(살짝 저연령 치우침), 여성

미마', 토지코', 요시카@ / 미코'', 세이자'', 후토'', 파르시@, 카구야@, 메이링@

요시카, 후토, 파르시, 카구야는 그룹 1에 가까웠음. 미마는 그룹 1에 있기는 한데 득표수가 적어서 의심스러움.


군집 6. 고연령, 여성

야치에**, 히사미** / 오키나*, 준코*, 유카**, 마미조#, 카나코#, 세이가@

오키나, 준코는 이쪽 집단에 있긴 하나, 그룹 3에 속하는 것을 볼 때 아주 고연령픽은 아니라고 생각됨.

유카는 그룹 6에 가까운 그룹 4였음.


군집 7. 중립과 기타

시온'', 레이무@, 유유코@, 파츄리@, 헤카티아@, 누에@, 첸@, 히나@, 에이린@, 케이네@

나머지들


8) 캐릭터 소결론

20위까지 써보자면 이렇게 됨.

1. 마리사 2. 레이무 3. 플랑 4. 코이시 5. 요우무 6. 사쿠야 7. 레밀리아 8. 모코우 9. 사토리 10. 유유코

11. 앨리스 12. 사나에 13. 아야 14. 우동게 15. 치르노 16. 유카리 17. 텐시 18. 파츄리 19. 루미아 20. 스와코

'상대적으로 봤을 때'

저연령 여성 픽을 노란색

저연령 남성 픽을 초록색

고연령 남성 픽을 파란색

중립 픽을 검은색으로 나타냄

(코이시, 치르노, 유카리는 성별 중립에 가까워서 연두색, 연두색, 보라색으로 했음)



그리고 미마가 저연령 여성층에게 상대적 인기가 있다고 나오는데, 이걸 어떻게 해석해야 할지 모르겠음.

진짜인지, 아니면 망령분들이 설문 응답에서 그렇게 대답하고 있는 것인지...



18회 때의 분석 (다소 미흡함)


 그래프 5, 7 생성 방법에 대한 설명 


1. 캐릭터의 특성에 대해서

모든 캐릭터들이 각 집단에서 비슷하게 선호받고 있다면, 캐릭터들이 받은 표의 비율 분포가 각 집단의 인구 비율 분포와 비슷해야 하지만 실제로는 그렇지 않음. 역으로, 이 차이를 이용해서 각 캐릭터가 어느 집단에서 더 선호되고 있는지 알아낼 수 있음. 각 캐릭터가 특정 집단에게서 받은 표의 비율이 그 집단의 인구 비율보다 크면 그 캐릭터가 그 집단에 어필할 만한 어떤 요소들, 특성들(feature)이 있다는 거임.

이항 분포의 표본 비율과 표준 오차를 사용하여 그 정도가 얼마나 되는지 측정해보면 그것을 feature로 이해해볼 수 있음.


p = 그 집단의 실제 인구 비율

n = 그 캐릭터의 전체 득표수

표본비율의 표준편차(표준오차) = sqrt(p(1-p)/n)

차이 = 캐릭터의 그 집단에서의 득표율 - 그 집단의 인구 비율

feature = 차이/표준오차


연령 집단 6개, 성별 집단 2개가 있었으니 각 캐릭터마다 8개의 feature를 갖게 됨.(하지만 성별의 경우 그 외 성별은 제외했으니 자유도가 1이 되어 다른 과정 없이 그냥 쓰기로 함)


2. 주성분 분석(PCA)

주성분 분석에 대한 자세한 설명은 생략함. 다른 전문적인 곳에서 찾아보셈.

쉽게 말하면, PCA는 데이터를 설명하는 가장 효율적인 축(고유벡터) 몇 개를 찾는 방법임.

원래 변수 간에 상관성이 높으면 그걸 합쳐버리게 됨. 여기서는 2차원으로 줄이기 위해 노력함.


연령에 관한 정보인 6개의 feature에 대해서만 PCA를 수행함.

그 결과 효율적인 고유벡터들 중에 상위 2개를 고를 수 있었음.

(정확히는 그대로 PCA를 한 게 아니라, 각 데이터들의 평균점인 C를 구하고, 각 데이터들에서 C를 뺀 다음, 거기서 PCA를 수행해서 고유벡터들을 구하고, 그 다음에 데이터들을 고유벡터대로 이동시키고 나서, C도 역시 그대로 이동시켜주고 나서, 마지막에 그 값을 다시 데이터들에 더해줌)

변환 이후 C = (2.19831372, 0.03334478)


첫 번째 축: (-0.64292478)*feature1 + (-0.36221173)*feature2 + (0.32987969)*feature3 + (0.40536694)*feature4 + (0.30763527)*feature5 + (0.29608778)*feature6

feature1이 10~14세, feature2가 15~19세였으니, 이 축은 전반적으로 얼마나 고연령 집단에게 선호되고 있는지를 나타냄.


이걸로 설명 가능한 분산 비율: 0.7175193739647202


두 번째 축: (-0.47393656)*feature1 + (0.4545499)*feature2 + (0.36960862)*feature3 + (-0.03758062)*feature4 + (-0.20067785)*feature5 + (-0.62487926)*feature6

feature2가 15~19세, feature3이 20~24였으니, 이 축은 15~24세 집단에게 선호받고 있는 정도를 나타냄.


이것까지 합쳤을 때, 설명 가능한 분산 비율: 0.8754139838997618