본문 바로가기

잡글 Lv. 3

스패머들은 야후 바벨 피쉬를 쓴다.

얼마전 외국에서 한글로 작성된 스팸 댓글들이 한국 블로그들을 무작위로 공격할 때, 처음엔 스팸 방지 플러그인이 속수무책으로  어이 없이 뚫려 버리는 허약한 모습을 보여 주었습니다. 그동안 영문으로 작성된 스팸들만 상대해 왔기 때문에 방심하고 있다가 허를 찔렸나 봅니다. 하지만 곧 스팸들의 패턴과 연결 사이트들을 분석해서 만반의 준비를 했는지 이제는 외국 사이트 링크를 가진 한글 스팸은 바로 휴지통으로 직행하고 있습니다.

하지만 너무나 강력해진(?) 스팸 방지 플러그인 덕분에 방문해 주신 분들이 남긴 귀중한 댓글 또한 휴지통으로 직행하는 일이 왕왕 생기고 있습니다. 블로그를 자주 찾아 주시는 분들은 작성하신 댓글이 사라지면 눈치 채시고 금칙어가 될 만한 말들을 피해 다시 댓글을 작성해 주시는 정성을 보여 주셔서 어떨때 죄스럽기도 하고 바보같은 같은 스팸 방지 플러그인이 원망스럽기도 했습니다.

그렇지만 요즘 같이 어수선한 세상에, 스팸 방지 플러그인 없이 블로깅을 한다는 것은 세수 안 하고 미팅 나가는 것 만큼이나,비오는 날 우산 없이 외출 하는 것 만큼이나, 공대생이 계산기 없이 시험보러 가는 것 만큼이나 무모한 짓이라는 생각에 스팸 방지 플러그인을 끄지 못하고 하루에 한번씩 휴지통을 확인하는 수고를 감내하며 이용하고 있습니다.

휴지통을 뒤지는 번거로운 수고를 하게 하는 한글 스팸이 한동안 뜸하더니 며칠째 다시 밀물처럼 밀려 오고 있습니다. 물론 스팸 방지 플러그인에 걸러져 휴지통에나 가야 볼 수 있지만 이렇게 열심히 한글로 댓글을 달아주는 정성이 갸륵해서 한번 읽어 주기로 마음 먹었습니다.

사용자 삽입 이미지

맘 먹고 읽어 주긴 했는데 도대체 무슨 이야기를 하고 있는 건지...? 한글로 쓰여져 있지만 도무지 알 수가 없습니다. 아마도 스패머는 번역기를 돌려 한글 문장을 만든 것 같은데 쉽게 의미를 알 수 없습니다. 우수하다니...중대하다니...위치라는 둥~

그래서 기왕 읽어 주기로 마음 먹은 김에 스패머들이 무슨 말을 하고 싶었는지 원래 영어 문장으로 되돌려 정확히 알아 보기로 했습니다. 한글을 모르는 영어권 스패머가 선택 했음직한 자동 번역기로 구글 번역야후 바벨 피쉬(알타비스타 바벨 피쉬가 야후로 넘어갔나 봅니다.)를 골라서 한글 댓글과 같은 번역 결과가 나올 것 같은 영어 문장을 영작해서 다시 번역기를 돌려 한글 문장을 만드는 방식으로 비교해 보았습니다.

사용자 삽입 이미지

원래 영문 스팸 유추 순서도


먼저 영작을 하기 전에 번역 서비스들의 품질과 어떤 번역 서비스를 이용했는지 밝혀 내기 위해 제일 최근에 달린 "너는 차가운 위치를 만들었다!"라는 댓글로 간단한 테스트 해 봤습니다.


Google 번역 Yahoo 바벨 피쉬
원문 너는 차가운 위치를 만들었다!
1단계 영작 You made a cool location! It spread out and it made a as cold as ice location.
2단계 번역 당신은 쿨 위치! 그 것은 밖으로 퍼지고a이 에 의하여 얼음 위치 차던 시켰다.
3단계 영작 You are cool location It spreaded out at the outside and in a kicked and by ice location it made.
4단계 번역 쿨 위치에 있습니다 그 것은 외부에 밖으로spreaded걷어차는안에 그리고 얼음 위치에 의하여 만들었다.
5단계 영작 Cool located at It made outside the spreaded inside kicking hard and by an ice location at the outside.
6단계 번역 쿨 위치한 그 것은 외부를spreaded외부에 열심히 그리고 얼음 위치에 의하여 걷어차는 안을 만들었다.
7단계 영작 Located in the cool It outside eagerly and by an ice location it will kick hard outside the spreaded and it will hold and it made.
8단계 번역 에 위치한 쿨 열 망하 그리고 이상으로 단단할 것이 걷어찰 것이다 얼음 위치에 의하여 그것은 밖에spreaded붙들 만들었다
9단계 영작 Located in the cool Under and above desiring eagerly by the ice location which means the hard thing will kick hard only it will catch and the spreaded it made
결과 안드로 메다에서 수렴 안드로 메다로 발산

구글 번역 서비스나 야후 바벨 피쉬 번역서비스 모두 이상한 영작<->번역으로 일관하더니 몇 단계를 거쳐서는 원래 문장과 전혀 관계없는 신비로운 결과를 보여 주는 것을 확인 할 수 있었습니다. 하지만 이상한 번역도 각 서비스 마다 차별성을 보여서 구글 번역 서비스의 경우에는 문장이 점점 짧아지다가 10번쯤 영작<->번역을 거친 결과, "Located in the cool"이라는 문장으로 수렴했고 야후 바벨 피쉬는 문장이 점점 길어 지면서 원래의 "너는 차가운 위치를 만들었다!"라는 댓글을 안드로 메다로 보내 버리는 황당한 결과를 보였습니다.

이 결과에서 어떤 서비스가 더 나은 결과를 보여준다고 판단하기는 힘들 것 같습니다. 두 서비스 모두 제대로 된 번역이라고 하기엔 너무 황당한 결과를 보여주고 있다고 생각합니다. 실제로 구글과 야후는 자신들의 자동번역의 한계를 인정하고 있습니다.

구글의 경우는 자신들의 "통계적 기계 번역" 방법에 대해 다음과 같이 밝히고 있습니다.
컴퓨터에 2개 단일 언어 텍스트의 단어 수십억 개를 모두 타겟 언어로 입력하고 실제로 사람이 두 언어로 번역한 예를 사용하여 텍스트를 정렬합니다. 그 다음 통계학습 기술을 적용하여 번역 모델을 구축합니다. 번역품질을 개선하려면 2개 국어로 된 텍스트가 상당량 필요합니다. 2개 국어 또는 여러 언어의 텍스트를 대량으로 제공해 주실 수 있는 분은 저희에게 알려 주시기 바랍니다.

야후의 바벨 피쉬는 자신들의 기계번역에 대해 다음과 같이 그 한계를 인정하고 있습니다.

기계 번역은 문장의 의미를 자동으로 분석하여, 같은 의미를 전달하는 다른 언어의 문장으로 만들어 주는 컴퓨터 프로그램입니다. 현재 100% 정확하게 번역하는 컴퓨터 프로그램은 없습니다. 하지만 기계 번역은 문장의 기본 생각을 이해하는데 도움이 될 것입니다.

두 서비스 모두 컴퓨터에 의한 자동 기계 번역의 한계를 인정하고 있기 때문에 위에서 본 이상한 번역<->작문의 결과는 어쩌면 당연한 것인지도 모르겠습니다. 야후가 이야기 하는대로 "문장의 기본 생각"정도를 이해하는데 도움이 되는 수준이 이 서비스들의 최대 기대치라면 현재의 기계화된 자동번역으로 인터넷상의 언어 장벽을 허문다는 것은 아직 시기상조 인것 같습니다.

이제 한글 스팸을 만들어 열심히 블로그에 댓글을 단 스패머가 원래하고 싶었던 이야기를 알아 보도록 하겠습니다. 각 댓글에 적어 놓은 난이도는 스패머가 번역기에 넣었을 것으로 짐작되는 영어 문장을 찾아내는데 소요된 개인적인 노력의 등급입니다.

1) 너는 차가운 위치를 만들었다! (난이도 하)

야후 : You made a cool site --> 너는 차가운 위치를 만들었다.
구글 : You made a cool location!->  당신은 쿨 위치!
You made a cool site!->당신은 쿨 사이트!

첫번째 스팸 댓글인 "너는 차가운 위치를 만들었다!"를 바탕으로 영작해서 번역기에 넣고 번역해본 결과 야후 바벨 피쉬가 "You made a cool site!"를 "너는 차가운 위치를 만들었다!"라고 정확히 스패머가 댓글 단 그대로 번역해 냈습니다. 구글은 아무리 영어 문장을 바꾸어 봐도 '너는 차가운 위치를 만들었다!"로 번역 결과를 만들어 낼 수 없었습니다.

2) 너는 아름다운 웹사이트가 있는다! (난이도 하)

야후: You have a beautiful web site --> 너는 아름다움 웹사이트가 있는다!
구글: You have a beautiful web site --> 수있는 아름다움 웹 사이트

야후에 "You have a beautiful web site"를 넣었을때 두번째 스팸댓글과 동일한 결과를 얻을 수 있었습니다. 구글은 무슨 이야기를 하는지 잠꼬대 같은 이야기를 하고 있군요. 이걸로 미루어 스패머는 야후 바벨 피쉬를 이용해서 한글 스팸 댓글을 만들어 낸 것 같습니다. 그래서 다음 댓글 부터는 야후 바벨 피쉬만을 이용해서 원래 영어 문장을 찾았습니다.

3) 중대한 위치 축하!경이롭 위치!(난이도 중)

Great site congratulation! wonderful site!--> 중대한 위치 축하! 경이롭 위치!

뭘 축하한다는 건지...아무튼 이런 말이 하고 싶었나 봅니다.


4) 친구는 너의 위치의 현재 팬이 되었다! (난이도 중)

Friend became a present fan of your site -->친구는 너의 위치의 현재 팬이 되었다.

영어 문장의 의미 자체가 이상합니다. 영어를 제대로 하는 스패머가 썼는지 의심이 되기 시작합니다.

5) 많은 감사 우수한 위치! 나는 너의 웹사이트를 사랑한다! (난이도 중)

Many thanks excellent site! I love your web site! --> 많은 감사 우수한 위치! 나는 너의 웹사이트를 사랑한다!

뭐가 감사하다는 겁니까? 스패머님??


6) 아주 재미있는 지점. 감사.(난이도 상 --> 지점?)

Very funny site ! thanks
--> 아주 재미있은 위치! 감사.

드디어 난이도 높은 문장이 나왔습니다. 그 동안 "위치"를 "site"로 영작하면 스팸과 동일한 번역 결과를 얻을 수 있었는데 a point, spot. location, place... 어떤 단어를 넣어도 "지점"으로 번역되지 않습니다. 혹 아시는 분은 댓글로 알려 주시기 바랍니다.

very funny point! thanks --> 아주 재미있은 점! 감사
very funny place! thanks  --> 아주 재미있은 장소! 감사

St.Junior 께서 "Very interesting branch office! thanks."가 "아주 재미있는 지점! 감사"로 번역된다고 알려 주셨습니다. 스패머의 영어 실력에 의심을 넘어 영어권에 사는 사람이 아닐 지도 모른다는 심증이 굳어집니다.


7) 여보세요, 아주 좋은 위치!(난이도 하)

Hello, very good site! --> 여보세요, 아주 좋은 위치!

이 스팸 댓글 역시 영어 문장의 의미가 아리송합니다.


8) 중대하고 유용한 위치!(난이도 하)

Great and useful site!--> 중대하고 유용한 위치!

가장 많은 빈도수를 보이며 등장하는 "중대하고 유용한 위치!"는 "Great and useful site!" 였습니다. 이 블로그를 높이 평가해 주셔서 감사합니다. 스패머님.


9) 우수한 일! 감사!(난이도 하)

Excellent job! Thanks!  --> 우수한 일! 감사!

버지니아 공대 사건때 개념없는 옆집 미국 대학생에 대한 포스팅(2007/04/19 - 무개념 옆집 미국 대학생들)이었는데 잘했다니...더구나 고맙기까지 하다니...할 말 없습니다.


10) 너의 위치를 방문한 즐기는!(난이도 상)

Enjoy your site visited! -> 방문되는 너의 위치를 즐기십시요!
Enjoyed! your visited site ->즐기는! 너의 방문된 위치
Your visited site! enjoyed! --> 너의 방문된 위치! 즐기는!
Visited your site! enjoyed! --> 너의 위치를 방문했다! 즐기는!

또 다시 난이도 높은 댓글이 나왔습니다. 이런 저런 문장을 영작해서 번역기에 넣어봐도 스팸 댓글 같은 결과를 얻을 수 없었습니다. 그래도 가장 비슷한 문장이 "Visted your site! enjoyed!"인데 이것도 정확히 일치하지는 않습니다. 역시 똑같이 번역되는 문장을 아시는 분은 알려 주시기 바랍니다.

MINiGIft 님께서 마지막 수수께끼를 풀어 주셨습니다. Enjoyed visiting your site! ->너의 위치를 방문한 즐기는!  저는 영어 문법과 한글 의미를 동시에 맞춰야 한다는 강박관념때문에 풀지 못했던 것 같습니다. 의외로 엉뚱하게 풀리는 군요. 감사드립니다.

지금까지 살펴본 결과를 정리하면 스패머들은 한글로 스팸댓글을 달기 위해 야후 바벨 피쉬를 사용해서 번역을 한 것 같습니다. 또 번역에 사용한 것으로 추정되는 원래 영어 문장의 의미 자체가 의미상 이상한 것으로 봐선 영어를 모국어로 쓰는 스패머는 아닌 것으로 추정됩니다. 지금처럼 뜻도 알 수 없는 어설픈 스팸이 아닌 제대로 된 스팸을 달려면 "2007/08/23 - 티스토리 스팸 방지 플러그인을 개선하면 사회가 밝아집니다."포스팅에서 이야기 한 것처럼 스패머들도 많은 독서와 사색은 물론 영어 공부도 열심히 해야 할 것 같습니다.

지금까지 달린 한글 스팸 댓글을 이해하는데 도움이 되는 빈번히 등장하는 어구들을 표로 정리했습니다. 원래 영어 문장을 보면 블로그를 칭찬하는 좋은 말들인데 한글로 번역을 하면서 이상하게 변해 버린 것 같습니다. 블로그를 칭찬하는 자연스러운 댓글이라면 넓은 아량을 베풀어 굳이 지우지 않을 수도 있을 것 같습니다.

한글 스팸 댓글 원래 영어 문장
차가운 위치 Cool Site
중대한 위치 Great Site
우수한 위치 Excellent Site
좋은 위치 Good Site

포스트를 마치면서 작은 바램이 있다면 모쪼록 스패머들이 이 포스트를 발견해서 스팸인지 칭찬하는 댓글인지 모를만큼 좀 더 자연스럽고 수준 높은 댓글을 다는데 참고하길 기대해 봅니다. 스패머도 프로의식이 필요한 때가 되었습니다.



관련 포스팅
2007/02/19 - [Updated]블로그에 영어,일어 번역 버튼을 넣기 위한 스크립트
2007/02/17 - 블로그에 Google 자동 번역 버튼을 넣기 위한 스크립트
2007/08/23 - 티스토리 스팸 방지 플러그인을 개선하면 사회가 밝아집니다.
2007/08/17 - 스팸 신고글에 스팸을 싣는 올블릿의 센스