[WBN] 비문학?) 창문챈 유동인구가 많은 시간대를 알아내기 위한 통계 알고리즘 설계

다음과 같이 공통된 주소형식과 마지막의 일련의 길이가 정해지지 않은 digit의 문자열로 구성되어 있다. 이를 통해 각각의 게시물을 일대일로 구분할 수 있다. 그러나, 해당 숫자가 부여되는 순서는 아카라이브 전체의 게시물의 작성순으로 부여되므로 바로 다음번에 등록된 창문챈의 게시물을 알아낼 수는 없다.

그렇다고 1부터 임의의 숫자까지 모든 숫자 하나하나를 일일히 접속하면서, 그것이 창문챈 소속인지 아닌지 따지는 것은, 사실상 디도스와 같은 서버에 대한 공격행위와 다를 바 없으며 단순히 챈 하나를 대상으로 하기에는 극도로 비효율적인 방법이므로 이 방법은 배제한다. (※주 : 만일 아카라이브 전체에 대한 크롤링 시도라면 이야기가 다르겠지만, 여전히 서버에 부담을 주는 파괴적 행위이니 설령 비영리적 목적을 띤다 한들, 권장되지 않는다.)

따라서, 해당 구분 넘버는 단순히 게시물 페이지에 대한 독립적인 구분 번호로 고려한다.

html 상에서는 body->div->...->div-><a href="https://arca.live/b/writingnovel/넘버" title="게시물 주소">https://arca.live/b/writingnovel/ 넘버 </a>로 구현되어 있다.

(※주 : 보다 상세한 태그 위치와 클래스를 적시할 수도 있겠지만, 이를 기반으로 불특정 다수의 어중간한 인물들이 마구잡이로 공격적인 툴들을 만들어내는 것에 대한 지식적 문턱을 조금이라도 높이고자 상세한 구현들은 본지에서는 고의적으로 생략하겠다.)

1.2. 작성일과 수정일

게시물이라면 필연적으로 작성일이 반드시 1개 존재하며, 경우에 따라 수정일이 병기된 경우도 있다. 시스템의 안정성과 분성의 간결함을 위해서라면 수정일을 생략하는것이 옳겠으나, 수정일 역시 중요한 정보를 담은 데이터로 기능할 수도 있으므로, 적절한 예외처리로 함께 수집하는것이 좋겠다.

html 상에서는 <span class="head">작성일</span> 및 <span class="head">수정일</span>의 body 요소로 가져올 수 있다.

1.3. 댓글 작성일

댓글들은 class="comment-wrapper"들로 나열되어 있는데, 그 내부의 특정 시일 요소를 가져오는 것으로 긁어올 수 있다.

2. 데이터베이스(DB) 요소 화

DB schem을 만듦에 있어, 최대한 간결하게 단 2개의 col만으로 구성하기로 하였다. 첫번째 col을 구분자로 하여 1.1의 구분넘버를 사용한다. 두번째 col을 본지의 핵심 데이터인 날짜값으로 한다.

1st col에 정직하게 구분넘버만 들어있을 경우, 이는 게시물의 작성일을 의미한다. (1)

1st col이 넘버_0의 꼴을 가질 경우 이는 게시물의 수정일을 의미한다. (2)

1st col이 넘버_임의의넘버 꼴을 가질 경우 이는 해당 게시물의 해단 번째 댓글을 의미한다. (3)

위 (1-3)의 오른쪽 2nd col에는 해당하는 요소의 작성일이 기록된다.

표현하자면 다음과 같은 꼴로 DB가 구성된다.

이 데이터를 잘 처리하기 위해서는, 1st col의 값에 대하여, (1) 순수히 넘버만으로 이뤄진 게시물 작성일을 의미하는지, (2) _0꼴의 수정일을 의미하는지, (3) 댓글을 의미하는지 처리할 수 있는 매써드를 따로 구현할 필요가 있겠다.

DB는 텍스트 기반으로도, csv 기반으로도 사용해도 되겠으며, 매 한 페이지를 추가할 때 마다 append_row로 계속 추가해 나갈 수 있다.

본지에서는 DB 요소의 삭제는 필요 요소가 아니므로, 이 DB의 경우, append_row(), read_first(), read_next()에 해당하는 매써드만 가지면 충분하며, 데이터 저장을 위한 2-D 배열, 현재 포인터 int변수의 간단한 요소로 구현할 수 있겠다.

3. 크롤링 기법

창문챈의 구조를 잘 살펴보면, 대단히 규칙적인 요소를 볼 수 있다.

https://arca.live/b/writingnovel?p=2

이것은 현 시점에서 2번째 페이지에 해당하는 최신 게시물들의 접속 포인터를 담은 페이지라 볼 수 있다.

또한, https://arca.live/b/writingnovel?p=1 url 역시 동작하므로, 이는 대단히 귀납적으로 작동한다 볼 수 있다.

즉 기본적인 작동 기초는 다음과 같다.

루프 시작, count=1 :

https://arca.live/b/writingnovel?p=%count% 크롤링

해당 요소들에 기입된 게시물들로 접속 가능한 <a href> 태그에 기입된 1.1 넘버를 긁어와 stack 저장.

stack에 대한 내부 루프 :

https://arca.live/b/writingnovel/%stack.pop()% 접속하여, 1.1, 1.2, 1.3의 요소들 수집하여 DB.append_row()로 저장

break 조건

count++

end루프

break 조건에는 날짜를 지정하여 해당 날짜까지만 크롤링을 수행할 수도 있고, 특정 넘버의 게시물 또는 페이지 까지만 크롤링 하라 지정할 수도 있겠다. 루프 시작시 count를 지정할수도 있겠다.

3.1. 크롤링 중 에러 조우

크롤링이 진행되는 중에 새로운 게시물이 등록될 경우, 페이지별로 게시물이 하나씩 밀리며, 이미 DB에 등록된 게시물이 한번 더 등록될 수도 있다. 이를 위해, 매 페이지의 1.1의 넘버를 읽을 때 마다 이미 DB에 등록되었는지 확인하는 과정을 추가할 수 있다.

권한이 없는 게시물에 대한 접속시도 시, 비정상적인 페이지를 조우할 수 있는데, 이를 continue 할 절차가 필요하다.

4. DB 데이터를 활용한 통계 후처리

4.1. 샘플링 및 히스토그램 작성

시간에 따른 유동인구를 분석하는 가장 대표적인 방법으로 히스토그램을 작성하는 방법이 있다. 이를 만들기 위해, 단위 샘플의 크기를 정해야 하는데, 요일별, 시간별 등으로 다양하게 기준을 잡을 수 있을 것이다. 본지에서는 a. 요일별, b. 시간별, c. 요일당 시간별 등 3가지 방식으로 모두 샘플링 하는것이 좋겠다 여겨진다. 이를 위해 a. 길이 7, b. 길이 24, c. 길이 168의 3가지 배열을 각각 2개씩 할당하며, DB 내 매 row마다 2nd row의 시간을 읽고 해당하는 배열에 count를 추가하는 방식으로 통계화 할 수 있을 것이다.

4.2. 게시물과 댓글

앞서 동일한 배열을 2개씩 할당하였는데, 이는 게시물과 댓글 각각 통계처리하기 위해서이다. 기본적으로 두 통계는 동일한 결론을 유도하리라 예상되나, 만일 두 통계가 일치하지 않는다면, 독자와 작가는 서로 다른 시간대에 활동함을 의미한다는 고무적인 결론을 얻을 수 있을 것이다. 단순히 총 유동인구를 얻기 원한다면 두 데이터의 단순합으로 통계를 얻을 수 있다.

결론 및 고찰

본지에서는 단순히 시간 요소만을 데이터마이닝 하였으나, 본 설계대로 구현될 시스템이 일으킬 트래픽 소모를 고려한다면, 이는 서버 및 클라이언트 리소스의 낭비와 같다. 때문에, 한번 이 시스템이 작동할 경우 같이 얻을 수 있는 다른 정보를 페이지 내에서 동시에 얻어내야 할 추가적인 고찰이 필요하다.

예를 들어, 작성자 정보를 추가로 라벨링하여, 해당 작성자의 활동 시간대만 필터링 할 수 있겠다.

예를 들어, 게시물 내 총 글자 수를 추가로 라벨링하여, 일정 분량 이상의 게시글이 업로드 되는 시간대 통계를 필터링 할 수 있겠다.

일반적으로, 서버 단위에서는 이러한 시간대 별 접속자 및 업로드 정보가 중요하게 받아들여지므로, 대부분의 back-end 시스템에는 본지의 시스템이 이미 DB 단위에서 구현된 경우가 많다. 그러나 서비스 제공자 측면에서는 그러한 데이터가 수익에 대한 정보가 될 수 있으므로 공개를 꺼리는 경우도 있다. (※주 : 시간대 별 광고 액면가 책정 등) 또한 과중한 서버 트래픽 부하는 해당 서버 운영자 뿐 아니라, 네트워크 제공자에 대한 업무방해로 이어질 수 있으므로 실제 시스템 가동에 있어 이는 매우 주의가 요구된다.

사사 및 권리주장

본지는 https://arca.live/b/writingnovel/63473567 부터 모티브를 얻었으나 그 과정에 일체의 연락·대가제공·작성의뢰를 받지 않았으며, 별개의 인물임을 명시한다. 해당 페이지 또한 인터넷에 공개된 정보로부터 얻었으므로 지적재산권의 보호 대상이 아님을 주장하는 바이다.

수필 전작
Current Annealing이란?

개아들의 작품 모음집

수필 다음작

대학원 연구생활과 글쓰기의 상관관계

댓글 글쓰기

쏟아맞추다

2022-11-22 16:03:39 답글

그래서 언제 가장 많대?

펼쳐보기▼

LaidDog

2022-11-22 16:05:47 답글

몰?루 설계도는 던져놨으니 지나가던 어떤 코딩신이 삘받으면 만들어와주겠지

펼쳐보기▼

쏟아맞추다

2022-11-22 16:07:42 답글

세계고전채널주딱

2022-11-22 16:16:51 답글

코딩챈로

펼쳐보기▼

쿠시

2022-11-23 00:53:19 답글

...?

펼쳐보기▼

마법케익_티라미수

2022-11-24 04:47:30 답글

뭔가 지나갔는데 뭔진 모르겠다 빨리 지나가는 코딩 빌런 나와봐

펼쳐보기▼

Bangdream

2022-11-24 17:13:45 답글

아니 이게 뭐야 ㅋㅋㅋㅋㅋㅋㅋㅋ

펼쳐보기▼

Bangdream

2022-11-24 17:14:31 답글

원글은 ㅈㄴ 생각없이 썼는데 퀄 미쳤네 ㅋㅋㅋㅋ

펼쳐보기▼

에스틸테인

2022-11-25 04:59:46 답글

설계도 ㄱㅅ 심심하면 언젠가 할지도

펼쳐보기▼

쏟아맞추다

2022-11-28 05:46:06 답글

wbn

펼쳐보기▼

LaidDog

2022-11-28 10:29:37 답글

쏟아맞추다

2022-11-28 10:32:10 답글

이번주에 가장 높은 추천수를 받은 산문/운문

펼쳐보기▼

LaidDog

2022-11-28 10:33:22 답글

*수정됨

그니까, 투표글도 보고 오긴 했는데, ㄹㅇ 이게 되네?

펼쳐보기▼

쏟아맞추다

2022-11-28 10:33:39 답글

ㄹㅇ 이게 되네 ㅋㅋㅋ

펼쳐보기▼

마법케익_티라미수

2022-11-28 11:06:51 답글

"하지만 수필이죠."

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 📰잡담 📢공지 🖋시 📖소설 📔수필/극본/독후감 ⚙소재/설정 🌐써줘 ❓피드백 🏆이벤트 🏅챌린지 🗃모음집 ✅팁 📋운영 👥운영회의

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28120479

공지 [필독] 창작문학 채널 사용 규칙 (2024. 04. 11 ver)

마법케익_티라미수 2024.03.07 670

공지 창작문학 채널 가이드 (2023. 06. 19 ver)

마법케익_티라미수 2023.06.19 1500

공지 (공사중) 2024 산문 총정리

마법케익_티라미수 2024.01.10 401

공지 [필독]창작문학 채널 공지 모음

제작자L 2022.07.04 2924

공지 신규 릴레이: 릴레이/나무) 시작! + 릴레이 규칙

마법케익_티라미수 2024.05.02 75

공지 ☆☆☆2024년 1분기 이분기의 문학 수상작 발표☆☆☆

손이미끄러졌다 2024.05.01 151

공지 ☆☆☆2023년 올해의 문학 최종 수상작!!!☆☆☆

쏟아맞추다 2024.02.24 411

공지 아카 대회 모음+우리 동네 이벤트 모음

티라미수 2022.03.23 5598

숨겨진 공지 펼치기(4개)

81 📔수필/극본/독후감 밑의 잡담탭에 써진 <한글>이란 시를 해석을 해보았다 [1]

이야기꾼루세트 2024.05.01 154 6

80 📔수필/극본/독후감 한국의 서정(敍情)은 공간성에 있는가? [3]

주효명 2024.04.28 193 10

79 📔수필/극본/독후감 아마 엄청 아마추어하고 개인적인 열 여덟일만큼의 일지/수필 [5]

열혈사나이 2024.04.02 190 7

78 📔수필/극본/독후감 사퇴가 하고싶어요 [16]

쏟아맞추다 2024.03.03 480 11

77 📔수필/극본/독후감 당신의 삶이 의미가 없다고 느껴진다면 이 글을 보세요 [4]

ㄷㄴㅌ 2023.12.22 263 9

76 📔수필/극본/독후감 우울증 [4]

패션공상 2023.12.17 255 5

75 📔수필/극본/독후감 남겨질 수 있기를 -소설 '남겨진 사람들' 을 읽고 [2]

응긱엣겟 2023.12.12 123 7

74 📔수필/극본/독후감 해리포터 소설 후기 [4]

종합게임유저 2023.12.12 218 8

73 📔수필/극본/독후감 창작문학 채널 회고록 [8]

ㅇㅇ (112.157) 2023.11.17 195 6

72 📔수필/극본/독후감 서로가 아름다운 세상이면 좋겠습니다. [9]

ㄷㄴㅌ 2023.10.23 305 11

71 📔수필/극본/독후감 지난 분기문학 1위한 사람입니다 [6]

주효명 2023.10.22 365 10

70 📔수필/극본/독후감 인사드립니다. (꾸벅) [3]

으아앙우우웅 2023.10.19 141 8

69 📔수필/극본/독후감 시의 언어 선택 가이드 [6]

겨 2023.10.16 341 12

68 📔수필/극본/독후감 국밥이 먹고 싶은 계절 - 수구레국밥 [4]

심해드라군 2023.10.16 105 6

67 📔수필/극본/독후감 우리는 언제나 행복을 살아가고 있다. [4]

ㄷㄴㅌ 2023.10.10 128 7

66 📔수필/극본/독후감 나에 대하여 [7]

밥자루 2023.09.10 211 8

65 📔수필/극본/독후감 생일에 대해서 [7]

밥자루 2023.08.24 294 11

64 📔수필/극본/독후감 바람 [4]

애늑 2023.08.19 114 8

63 📔수필/극본/독후감 어중간한 재능은 저주다. [7]

밥자루 2023.08.15 500 13

62 📔수필/극본/독후감 첫 사표 [3]

김태광수 2023.08.11 189 10

61 📔수필/극본/독후감 나는 술을 좋아한다. [4]

shagsvh 2023.08.09 163 7

60 📔수필/극본/독후감 학교 글쓰기 대회에서 최우수상 받았던 글 [9]

무명 (61.76) 2023.08.03 472 14

59 📔수필/극본/독후감 입대 전날 [12]

심해드라군 2023.07.30 304 13

58 📔수필/극본/독후감 ☆2023 2분기문학 선정 기념☆ 시 부문 선정작 같이 읽기 [7]

주효명 2023.07.26 470 10

57 📔수필/극본/독후감 우울했을 때 썼던 죽은 쥐에 관한 수필 [2]

원자력에너지 2023.07.16 205 8

56 📔수필/극본/독후감 『 눈이 녹아 만들어진 진창에서, 나는 자주 네 생각을 했다』 [3]

침착친절치의 2023.07.14 224 5

55 📔수필/극본/독후감 지식과 재능, 가난과 사랑 [21]

침착친절치의 2023.06.17 451 11

54 📔수필/극본/독후감 암반이 아름다운 이유 [6]

UTOpia 2023.06.02 236 10

53 📔수필/극본/독후감 야밤의 환난. [4]

OO 2023.04.23 163 8

52 📔수필/극본/독후감 나는 죽고 싶을 때에는 간짜장을 먹으러 간다. [6]

Investigator 2023.04.19 196 7

51 📔수필/극본/독후감 김수영 빠로서 그냥 지나칠 수 없는 시였다 [4]

이십일번삼각로는십이차선수직교각 2023.04.15 291 8

50 📔수필/극본/독후감 시 3편 리뷰 도착했습니다. [8]

PORNOGRAPHY 2023.04.15 208 7

49 📔수필/극본/독후감 명작은, 전례없이 새롭되 기성언어로 기술되면서 탄생한다. [4]

LaidDog 2023.03.27 303 10

48 📔수필/극본/독후감 허송세월의 트라우마 [3]

닉호핀 2023.03.22 213 8

47 📔수필/극본/독후감 (에세이)본인의 창작 신념-어째서 나는 글을 쓰는가 [10]

REDCOMET 2023.03.19 232 10

46 📔수필/극본/독후감 창작문학채널 같이 읽기 : 3월호 上 [6]

ㅇㅇ (210.94) 2023.03.16 431 13

45 📔수필/극본/독후감 한여름, 2010년. [2]

우효겟챠 2023.02.23 168 8

44 📔수필/극본/독후감 아버지는 운동권이었다. [2]

심해드라군 2023.01.29 223 9

43 📔수필/극본/독후감 [WBN] 저는 집이 없는 사람입니다. [4]

후드 2022.12.04 181 8

42 📔수필/극본/독후감 [WBN] 리바우로헥타르존슨 [7]

낭만파 2022.11.30 263 13

41 📔수필/극본/독후감 [WBN] 비문학?) 창문챈 유동인구가 많은 시간대를 알아내기 위한 통계 알고리즘 설계 [15]

LaidDog 2022.11.22 391 11

40 📔수필/극본/독후감 그 어떤 창조 신화보다도 극적인 진실 [8]

쿠시 2022.11.06 253 8

39 📔수필/극본/독후감 [WBN] 선비 "이보게. 내가 가는 길에 구렁이가 까치 새끼를 잡아먹으려고 하는 걸 봤네." [11]

Tellon 2022.11.02 292 13

38 📔수필/극본/독후감 슬픔의 거리. [4]

Aa_ 2022.11.01 143 9

37 📔수필/극본/독후감 어릴적 악몽 [6]

ㅇㅇ 2022.10.22 154 7

글쓰기

전체글 개념글