[12월호, 2020년] SDP 테크팀의 역작: Deal Auto-Tracker

[12월호, 2020년] SDP 테크팀의 역작: Deal Auto-Tracker - 5기 김재원, 이길원

SDP 테크팀의 역작 : Deal Auto - Tracker

안녕하세요? 저희는 SDP 테크팀 5기로 활동하고 있는 이길원, 김재원이라고 합니다! SDP는 COVID-19의 영향을 받은 PPI 딜을 추적 조사하고 있습니다. 그 과정에서 여러 가지 반복 작업이 이루어질 수밖에 없는데, 몹시 방대하고 지루했습니다.

테크팀은 크롤러와 AI, 웹 어플리케이션을 활용해서 이 작업들을 자동화했습니다. 그 결과 작업 시간을 수 백분의 1로 단축시킬 수 있었고, SDP는 다른 프로젝트도 진행할 여력을 확보했습니다.

이번 글을 통해 이 ‘자동 프로세스’를 소개하려 합니다.

저희가 개발한 제품은 총 세 개의 Stage로 구성되어 있습니다.

Stage 1 : URL을 수집해서 데이터베이스에 저장합니다.

Stage 2 : 각 URL에 해당하는 사이트의 본문을 추출해서 데이터베이스에 저장합니다.

Stage 3 : AI가 그 본문을 보고 ‘이 데이터가 우리가 원하는 데이터일 확률값’을 계산해서 데이터베이스에 저장합니다. 그리고 이 정보를 웹 앱에 게재하여 쉽게 다룰 수 있도록 합니다.

이상의 프로세스를 더 상세히 보여드리겠습니다.

Stage 1 - URL 수집하기

크롤러는 웹 페이지에서 원하는 정보를 수집하는 프로그램입니다. 저희는 이 프로그램을 이용해서 ‘검색 결과에 대한 URL’을 수집합니다.

위 사진은 특정 검색어를 검색한 사진입니다. 빨간 색으로 체크된 부분이 각 사이트의 URL입니다. 크롤러는 이 URL들을 수집해서 데이터베이스에 저장합니다.

Stage 2 – 각 사이트의 본문을 추출하기

데이터베이스에 저장된 URL들을 이용해서 각 사이트의 본문을 수집합니다. 그 결과가 아래 그림과 같습니다.

검색에 쓰인 키워드와 각 사이트의 URL, 그리고 각각 사이트의 본문까지 함께 저장되어 있습니다. 하지만 이 막대한 양의 데이터 중에 일부만 저희가 원하는 데이터입니다. 이제 이 데이터 중에 필요한 ‘옥석’을 가려낼 때입니다. 어떤 데이터가 저희가 원하는 데이터인지 판단하는 건 AI의 일입니다.

Stage 3 – 데이터의 판단과 시각화

AI는 데이터베이스에 저장된 데이터를 보고 “이 데이터가 우리가 원하는 데이터일 확률”을 계산합니다. 그 확률 값과 해당 데이터를 데이터베이스에 함께 저장합니다. 아래는 그 결과값입니다.

모자이크를 해서 잘 보이지 않으시겠지만, 아까 없던 weight 값이 새로 생긴 걸 확인할 수 있습니다. 이제 이 Weight값을 리서치팀이 잘 사용할 수 있도록 시각화 할 차례입니다.

위와 같이 데이터베이스의 Column 값을 웹 페이지에 보기 좋게 띄웁니다. 이 웹 어플리케이션을 통해 사용자가 원하는 데이터만 추출해낼 수 있습니다. 리서치팀은 이 페이지를 이용해서 각 기사가 유효한 데이터를 담고 있는지 확인하고 최종적으로 Deal의 현재 상태를 추출해냅니다. AI가 아직 기사의 맥락까지 정확히 판별해내지는 못하기 때문에 PPI Deal에 대한 직관이 있는 리서치팀이 검수를 한다고 이해하시면 되겠습니다. 이 데이터를 추출함으로써 전체 작업이 마무리됩니다.

이상으로 저희가 개발한 제품을 최대한 간단하게 설명해드렸습니다. 실제 코드는 몇 천 ~ 몇 만줄이나 돼서…더 구체적인 코드가 궁금하신 분은 SDP에 들어와서 함께 리팩토링하면 좋겠습니다.

감사합니다.

일부 사진들은 대외비 정보를 포함하여 모자이크 처리 했습니다.

Comments

[Research Team Insight #1] The A to Z of SDP Research Team

[10월호, 2020년] 세계시민의식과 SDGs에 대해 묻다: 강동렬 UN SDSN Youth Korea 총괄 인터뷰 - 4기 유재희, 이소정

"개인의 움직임은 과연 얼마나 중요할까?" 위의 질문에서부터 본 인터뷰는 시작된다. SDP는 현재 지속가능발전 글로벌 리더가 되고자 거시적인 시각에서 에너지와 인프라에 관심을 가지고 활동하고 있다. 우리는 다양한 외부 기관으로부터 지지를 받으며 유의미한 성과를 내고 있지만, 혹 멀리서 커다란 모습에만 집중한 나머지 개개인이 일상에서 지속가능함을 위해 노력하는 미시적인 움직임을 놓치고 있는 것은 아닐까. 세계시민의식을 가지고 살아간다는 것은 어떠한 의미인지, 우리가 생활에서 실천할 수 있는 방법은 무엇일지 고민하게 되었다. 강동렬님은 세계시민교육가이자 지속가능발전활동가로, UN SDSN Youth Initiative 한국 총괄로 계시며 SDP의 활동에도 언제나 많은 도움을 아끼지 않으신다. SDP는 지난 8월, 재생에너지와 시민의식을 주제로 동렬님을 모시고 공개 세미나를 추진하였으나 코로나19 상황 악화로 인해 잠정 연기한 일이 있다. 우리의 질문과 맞닿아 있는 세미나를 기다리며, 동렬님이 중요하게 생각하시는 가치와 활동은 무엇인지 SDP가 작은 인터뷰를 통해 들어보고자 하였다. 4기 유재희, 이소정

[3월호, 2021년] #32 딥 페이크(Deep Fake)와 디지털 포렌식(Digital Forensic) - 7기 진희주

딥 페이크(Deep Fake)와 디지털 포렌식(Digital Forensic) 7기 진희주 아래 사진 중 무엇이 실제 오바마의 사진일까 ? 네 장 모두 딥 페이크 기술을 통해 인공지능이 만든 오바마의 사진이다 . 딥 페이크 (Deep Fake) 는 Deep Learning 과 Fake 의 합성어이다 . 딥 페이크는 AI 를 이용해 특정인의 얼굴이나 목소리를 합성한 사진 , 영상 , 음성 편집물 및 그 기술을 통칭하는 단어이다 . 딥 페이크 기술은 새로운 유형의 신경망 ( 머신러닝 알고리즘 ) 발전으로 가능해졌다 . 딥 페이크 기술을 활용하면 유명인의 얼굴을 대역에 합성해 손쉽게 영상을 만들거나 세상에서 사라진 멸종 위기 종이나 과거의 사람들을 생생하게 재현할 수도 있게 된다 . 여러 사람의 얼굴을 통해 가상의 얼굴을 제작하여 사용하거나 스타일 트랜스퍼 (Style transfer) [1] 를 활용해 겨울을 여름으로 , 또는 화창한 날을 비 오는 날로 묘사하는 등 이미지의 환경적 맥락을 바꿀 수 있는 등 딥페이크 기술의 영상 • 사진 산업 분야의 활용도와 가치는 무궁무진하다 . 하지만 딥 페이크는 엄청난 힘에 걸맞게 악용 가능성이 높아 그 위험성에 대한 논란이 최근 활발하게 이뤄지고 있다 . 대표적인 악용사례는 유명 연예인을 합성한 불법 포르노 , 전•현직 대통령의 얼굴을 합성한 가짜뉴스 영상 등으로 사회를 큰 혼란에 빠뜨릴 수 있음을 보여준다 . 딥 페이크 범죄의 대상은 유명인을 넘어 점차 일반인에게까지 확장되고 있다 . 헤어진 연인 , 또는 지인의 얼굴을 다른 나체 사진이나 성인물 동영상과 합성하여 만든 딥 페이크 제작물을 온라인 상에서 유통하거나 이를 통해 협박하는 등 딥 페이크 영상은 점차 심각한 사회적 문제로 대두되고 있다 . 2019 년 4 월 국내에서 큰 논란이 되었던 텔레그램 N 번방 사건에서도 딥페이크를 악용한 사진이 거래 , 유포된 정황이 확인되어 그 심각성이 전면으로 드러나게 되었다 ....

[Research Team Insight #2] Project MaPPPing and the role of Research Team - 5기 권경민, 6기 김예빈

1. What is Project MaPPPing SDP is constituted of students who have great interest in sustainable development, and we refer to the SDG goals articulated by the UN as the global standard for sustainable development. This year, we have specifically focused on goal number 9 and 11 that emphasizes the role of infrastructure in sustainable development [1] . We believe that sustainable and resilient infrastructure is at the heart of sustainable growth, so we have launched a project called Project MaPPPing in December 2019.

[11월호, 2020년] Countermeasures against urbanization: Air pollution in Seoul - 5기 함이수

Countermeasures against urbanization: Air pollution in Seoul 55% of the world population resides in urban areas as of 2018, according to a UN report. The overly populated urban population has given rise to problems that people were not aware of in the past. Especially, the impacts of urbanization on the environment are slow to be seen thus has been accumulating, invisible to the human eye. What has been done to address these problems? Furthermore, how should we approach these issues henceforward?

Sustainable Development Program

Search This Blog