호텔 리뷰 맛집, 여기 있어요!

Date
2020.11 - 2020.12
Tags
텍스트마이닝
웹크롤링
시각화
UI디자인
Link
https://github.com/dataitgirls4/team_4
Untitled.png
↑ 위 사진을 클릭하시면 전체 발표 자료를 보실 수 있습니다

✔️ 개요

데잇걸즈 4기 프로그램의 파이널 프로젝트입니다
한국정보화진흥원장상을 수상하였습니다
주제 : OTA 내 호텔 리뷰 중 고객의 입장에서 실질적으로 도움이 되는 리뷰를 분석, 새로운 소팅 모델을 제작
데이터 출처 : 웹 크롤러를 제작하여 야놀자, 아고다에서 서울 시내 3-5성급 호텔 리뷰 데이터 2,500건 수집
기여 내용 : 주제 도출, 스토리텔링, 데이터 분석, 발표 장표 및 모바일 UI 디자인

✔️ 프로젝트 내용

문제 인식

Untitled.png
Untitled.png
코로나 19 이후 침체된 관광 및 호텔 업계의 활성화를 위해 정부 차원에서 '대한민국 숙박대전' 이벤트를 운영하고, 네이버 검색량 추이에서도 전년 동기간 대비 '호캉스'와 '서울 호텔' 키워드 검색량이 상승하는 등 여행에 대한 니즈가 호텔 숙박으로 이동되는 트렌드 발견
그러나 대부분의 호텔 예약 사이트에서는 내가 원하는 키워드를 담고 있는 리뷰를 따로 볼 수 없고 별점순, 최신순 등으로만 소팅이 되어 상위에 호텔 예약 의사 결정에 도움이 되지 않는 리뷰가 많이 노출된다는 pain point를 확인

데이터 수집 및 분석

Untitled.png
Untitled.png
설문조사로 데이터를 수집할 타겟을 선정한 후, 크롤러를 제작하여 호텔 텍스트 리뷰 데이터 2,500건 수집
분석에 용이하도록 개행 문자, 의미없는 자모음, 특수문자, 이모티콘 제거 및 맞춤법 교정 전처리
Untitled.png
Untitled.png
Untitled.png
Untitled.png
국내 호텔 이용 경험자 140인의 설문조사 및 TF-IDF 가중치 적용에 기반하여 라벨링 기준을 설정, Raw data 라벨링
Untitled.png
Untitled.png
MeCab를 이용해 텍스트를 일정 기본 단위로 자르는 토큰화 작업 진행, 불필요한 불용어 제거
통계 분석을 위해 비정형 데이터인 텍스트 데이터를 정형 데이터인 숫자로 변환하는 Term Document Matrix 변환 작업
자주 등장하는 단어의 빈도수를 세는 TF 방식 : 모델링과 EDA에 적용
여러 번 언급된 단어의 가중치를 낮추는 TF-IDF 방식 : EDA에 적용

EDA

Untitled.png
Untitled.png
Untitled.png
Untitled.png
Untitled.png
Untitled.png

데이터 모델링

Untitled.png
Untitled.png
정밀도를 높이면서 정확도는 유지할 수 있는 Scikit Learn - Logistic Regression 방식을 채택하여 정확도 85% 달성

솔루션 제시

Untitled.png
Untitled.png
Untitled.png
새로운 소팅 모델을 '야놀자'의 '노보텔 앰배서더 서울 용산' 호텔 리뷰에 적용한 결과, 상위 50개 리뷰 중 도움되는 리뷰의 비율이 32%에서 96%로 증가
주요 키워드 별 긍정, 부정 비율각 키워드를 포함하고 있는 리뷰를 소팅하여 상단에 노출시키는 새로운 서비스 제작 예정
Made with 💕 and Oopy