Search

호텔 리뷰 맛집, 여기 있어요!

Date
2020.11 - 2020.12
Tags
텍스트마이닝
웹크롤링
시각화
UI디자인
↑ Click!

개요

데잇걸즈 4기 프로그램의 파이널 프로젝트입니다
한국정보화진흥원장상을 수상하였습니다
주제 : OTA 내 호텔 리뷰 중 고객의 입장에서 실질적으로 도움이 되는 리뷰를 분석, 새로운 소팅 모델을 제작
데이터 출처 : 웹 크롤러를 제작하여 야놀자, 아고다에서 서울 시내 3-5성급 호텔 리뷰 데이터 2,500건 수집
기여 내용 : 주제 도출, 스토리텔링, 데이터 분석, 발표 장표 및 모바일 UI 디자인

프로젝트 내용

문제 인식

코로나 19 이후 침체된 관광 및 호텔 업계의 활성화를 위해 정부 차원에서 '대한민국 숙박대전' 이벤트를 운영하고, 네이버 검색량 추이에서도 전년 동기간 대비 '호캉스'와 '서울 호텔' 키워드 검색량이 상승하는 등 여행에 대한 니즈가 호텔 숙박으로 이동되는 트렌드 발견
그러나 대부분의 호텔 예약 사이트에서는 내가 원하는 키워드를 담고 있는 리뷰를 따로 볼 수 없고 별점순, 최신순 등으로만 소팅이 되어 상위에 호텔 예약 의사 결정에 도움이 되지 않는 리뷰가 많이 노출된다는 pain point를 확인

데이터 수집 및 분석

설문조사로 데이터를 수집할 타겟을 선정한 후, 크롤러를 제작하여 호텔 텍스트 리뷰 데이터 2,500건 수집
분석에 용이하도록 개행 문자, 의미없는 자모음, 특수문자, 이모티콘 제거 및 맞춤법 교정 전처리
국내 호텔 이용 경험자 140인의 설문조사 및 TF-IDF 가중치 적용에 기반하여 라벨링 기준을 설정, Raw data 라벨링
MeCab를 이용해 텍스트를 일정 기본 단위로 자르는 토큰화 작업 진행, 불필요한 불용어 제거
통계 분석을 위해 비정형 데이터인 텍스트 데이터를 정형 데이터인 숫자로 변환하는 Term Document Matrix 변환 작업
자주 등장하는 단어의 빈도수를 세는 TF 방식 : 모델링과 EDA에 적용
여러 번 언급된 단어의 가중치를 낮추는 TF-IDF 방식 : EDA에 적용

EDA

데이터 모델링

정밀도를 높이면서 정확도는 유지할 수 있는 Scikit Learn - Logistic Regression 방식을 채택하여 정확도 85% 달성

솔루션 제시

새로운 소팅 모델을 '야놀자'의 '노보텔 앰배서더 서울 용산' 호텔 리뷰에 적용한 결과, 상위 50개 리뷰 중 도움되는 리뷰의 비율이 32%에서 96%로 증가
주요 키워드 별 긍정, 부정 비율각 키워드를 포함하고 있는 리뷰를 소팅하여 상단에 노출시키는 새로운 서비스 제작 예정