유령페이지사건

FrontPage|FindPage|TitleIndex|RecentChanges| UserPreferences P RSS

우물에독약뿌리는오류논리적오류질서도전이효과B형간염유전자치료 유령페이지사건


유령페이지사건은 2001년 가을의 몇 달간에 걸쳐, "화장게임", "gta2공략집" 등의 페이지들이 지워져도 반복적으로 부활되는 사건이었다.

이 사건을 통해서 과학적 발견의 전형적인 구조를 볼 수 있기 때문에, 정리하여 남긴다.

이 사건은 한동안은 어떤 특정인이 장난으로 이러한 페이지들을 만든 것이라고만 생각되었었는데, 까리용님에 의해서, 노스모크 외부의 잘못된 링크가 있을 수 있다는 아주 그럴듯한 가설이 제시되었다. 이 당시만 해도 가설이었던 이유는 증거가 없었기 때문이다.

하지만 곧바로 증거가 찾아졌는데, 여기에는 다분히 행운이 작용하였다. 이것을 찾아낸 이가 평소에 주로 쓰는 검색 엔진이 엠파스였다. 엠파스로 "화장게임"과 "gta2공략집"을 검색해 본 결과 바로 첫 페이지에 뜨는 것을 확인함으로써, 위의 가설에 대한 믿을만한 근거로 삼을 수 있었다. 다른 검색 엔진에서도 아마 링크가 있을 것으로 생각되지만, 첫페이지에 뜨지는 않았다.

이 사건에서 중요한 것은, 이 페이지의 생성에 대한 관찰만으로는 왜 이 페이지가 반복적으로 생기는지에 대해 이해하는데 큰 도움이 되지 못하였다는 사실이다. 하지만 새로운 가설이 나옴으로써 내재한 기전이 단번에 밝혀졌다. 이것이 바로 관찰의 이론 의존성에 대한 좋은 예가 될 수 있을 것이다.

또 한가지 중요한 것은, 만약 다른 검색 엔진으로 찾으려 했다면, 단번에 증거를 찾아내지 못했을 것이다. 모든 과학적 발견의 저변에는 확률적인 행운이 있다.

이 문제 자체는 상당기간 해결이 안될 것이다. 페이지를 지우면, 또 새로운 사람들이 만들면서 들어올 것이고, 그대로 놓아두면, 검색 엔진들이 링크가 살아있는 것으로 간주하여, 계속 보유할 것이기 때문이다. 누군가 처음 잘못된 페이지 하나를 만듦으로써, 이것이 얼마나 큰 영향을 주는지에 대한 교훈으로 삼아야 할 것으로 생각된다.


이전에 사랑방에 올린적이 있습니다만 노스모크WantedPages 들은 엠파스 검색결과의 맨 처음에 뜨게 됩니다. 즉 gta2공략집화장게임은 검색빈도가 높았기 때문에 자주 등장한 것 뿐이라는 생각입니다. WantedPages의 문제를 해결해야 할 것 같은데요? 특히 한글로 된 페이지들이 더더욱 문제가 되는군요. 질문없이묻기를 하지 말란 얘기인가...이런.--김우재


이 사건의 교훈: 이상한 페이지가 생기면 검색엔진이 찾기 전에 잽싸게 청소해야 한다.

이 문제는 기술적으로 해결가능한 문제입니다. 유령페이지가 생겨나는 건 moinmoin의 새 페이지 만드는 방식에서 비롯된 문제입니다. 잘못된 페이지가 생성되는 것이 검색엔진의 robot이 그 링크를 방문했기 때문이라면,
  1. 새 페이지를 생성할 때 User Agent를 확인하여 검색로봇을 거부할 수도 있고,
    User Agent는 client측 마음이기 때문에 궁극적인 해결책은 안될 듯 합니다. 현재 노스모크에서는 (역시 client 마음인) robots.txt와 IP 막기로 대응하고 있습니다.
    robots.txt를 제대로 지키는 검색로봇은 거의 없습니다. 알면서도 안 지킵니다. 그래도 User Agent를 확인하는 것은 상당히 효과적인데, 대부분의 검색로봇이 User Agent를 속이지는 않습니다. 모든 User Agent를 허용하면서 특정 User Agent를 거부하는 정책보다 모든 User Agent를 거부하면서 특정 User Agent를 허용하는 정책을 취하면 검색로봇은 거의 확실히 막아낼 수 있습니다. 믿어도 좋습니다. :)
  2. 새 페이지 생성 링크에 form을 써고, GET방식이 아닌 POST방식으로 submit되었을 때만 페이지를 생성하도록 코딩할 수 있습니다 - 보통 검색 robot은 POST방식의 link를 따라가지 않도록 만들어져 있습니다.
    새 페이지 생성은 단순히 링크를 따라가는 것으로 이뤄지지 않습니다. POST를 해야 생성이 됩니다.
유령페이지가 생겨나는 것이 사람들의 별 생각없는 클릭 때문이라면, 새 페이지를 만들 때 경고메시지를 간단히 보여주거나, form의 Save Chages 버튼을 누른 경우에만 페이지가 생성되도록 만들 수 있습니다.
역시 같은 이야기인데, 이미 노스모크는 Save Changes를 누른 경우에만 페이지가 생성되도록 만들어져 있습니다.
그렇다면 사람들이 별 생각없이 페이지를 클릭하는 문제일 가능성이 높군요. Apache의 AccessLog 파일포맷을 변경하여서 UserAgentAccessLog에 남기는 방법을 쓰면 정확히 어떤 이유로 유령페이지가 생성되는지 확인할 수 있습니다. 우연히 방문한 사람이 별 생각없이 만드는 경우라면, 본문의 길이를 1~2줄 이상으로 강요하거나, 새 페이지 생성때만이라도 특정 checkbox를 켜거나 끄게 만드는 귀찮음을 통해 문제를 해결할 수 있습니다. 그래도 누군가 별 생각없이 장난친다면, 위키의한계라고 간주하고 사람의 인력으로 정리해 나가는 수밖에 없겠네요.


아마도 화장게임 이나 gta2 같은 키워드로 엠파스를 사용하는 사람들은 나이가 어리고 위키위키 같은데 경험이 없어서 아무 링크나 눌러보는 경향이 있는것 같은데, 새 페이지를 만들때 나오는 페이지를 한글로 적어서 실제 페이지를 만드는 동작을 스스로 피할 수 있게 안내해 주는것이 어떨까요? --아무개
실제로 그러한 경로로 이 곳에 들어온 사람중에 하나라고 할 수 있지요. 정확히 어떤 검색어였는지는 생각이 안 나지만, 아마 텍스트의 충실성에 매료 되어서 시스템을 둘러봤었던 기억이 납니다. - DrFeelgood



노스모크통계에 따르면 [http]2001년 11월부터 [http]2003년 9월 현재까지 GTA2라는 페이지가 비정상적인 접속율을 보였습니다. 이것도 유령페이지사건의 후유증 같습니다. --PuzzletChung
개구장이스머프GTA2 페이지의 hit수 대부분은 Entry page와 Exit page에 집중되어 있습니다. 페이지를 한 번 보고 그대로 나가는 횟수가 하루평균 100번정도 되는 모양입니다.


GhostPages 라는 단어는 페이지제목에 있는 유령페이지로, hypothesis는 가정이나 가설로, evidence는 증거라는 한글 단어를 사용하는게 어떨까요.? --naisis




"; if (isset($options[timer])) print $menu.$banner."
".$options[timer]->Write()."
"; else print $menu.$banner."
".$timer; ?> # # ?>