주식회사 데이블

Data Engineer 

(전문연구요원 현역/보충역)

주식회사 데이블은 2015년에 설립된 회사로 자본금 45억원, 매출액 326.8억, 사원수 150명 규모의 고용노동부에서 선정한 강소기업입니다. 서울 강남구 테헤란로 507 (삼성동, WeWork빌딩)에 위치하고 있으며, 콘텐츠 디스커버리 & 네이티브 광고 플랫폼(데이블 뉴스, 데이블 네이티브애드)사업을 하고 있습니다.

포지션 및 자격요건

Data Engineer
( ○명 )


“글로벌 콘텐츠 디스커버리 플랫폼 데이블에 지원하세요~!”

데이블은 ‘사용자와 미디어, 콘텐츠를 연결하자’는 미션을 가진 콘텐츠 디스커버리 & 네이티브 광고 플랫폼입니다.


데이블은 2015년 네이버, NC소프트, SK플래닛 등에서 10년 이상 경험을 쌓은 국내 최고의 개인화 추천팀이 설립했습니다. 데이블은 빅데이터 및 개인화 기술을 바탕으로 미디어 사이트 방문자들이 소비한 콘텐츠를 실시간으로 분석하여 ‘당신이 좋아할 만한 콘텐츠’와 같은 고품질 개인 맞춤형 콘텐츠 추천 서비스를 제공합니다.


현재 데이블은 MBC, SBS, JTBC, 조선일보, 중앙일보, 한겨레 등 주요 언론사를 비롯해 카카오, 줌, MSN 등의 포털, 블로그, 커뮤니티, 애플리케이션 등 국내외 3,000여 미디어에게 개인화 콘텐츠를 제공하고 있습니다. 또한 데이블은 ‘글로벌 No.1 콘텐츠 디스커버리 플랫폼`을 목표로, 한국을 비롯해 일본, 대만, 베트남, 홍콩, 싱가포르 등에 서비스를 제공하고 있으며 유럽 등 지속적으로 서비스 지역을 확대할 계획입니다.


데이블은 데이블의 비전과 문화에 공감하면서 데이블과 함께 성장할 수 있는 분들을 모시고자 합니다.



[팀 소개]


데이블의 콘텐츠 추천 및 광고 데이터를 처리하는 파이프라인을 개발합니다.


데이블의 고객 또는 데이블러라면, 대용량의 데이터를 누구나 빠르고 쉽게 사용할 수 있는 플랫폼을 구축하기 위해 노력하고 있습니다.




[우리 팀이 일하는 법]


- DP팀이 주로 다루는 문제는 데이터의 효율적 처리 입니다. 소 잡는 칼로 닭 잡을 수 없듯이 무조건 분산 처리를 선택하는 것이 아니라 처리해야 할 데이터의 특성과 용량에 따라 실시간 처리 또는 배치 처리를 고민하고, 어떤 솔루션을 사용할지 결정합니다. 실시간 처리시에는 AWS Lambda 또는 Flink를 선택하고 있습니다. 배치 처리시에는 단일 프로세스에서 pandas를 사용하기도 하고, 분산 처리가 필요한 경우 Trino 또는 Spark을 사용합니다.


- 국내 주요 뉴스 매체 뿐만 아니라 대만, 베트남 등의 해외 주요 매체로부터 발생하는 일별 억 단위의 대용량 로그들을 다룹니다. 최근에는 모바일 앱에서 발생하는 광고 로그도 다루기 시작했습니다. 이에 따라 분산 처리를 선택해야 하는 경우가 많습니다. 주로 Trino SQL 또는 Spark application을 선택한 후 어떻게 효율적으로 구현할 것인지 고민합니다.


- 효율성과 비용의 문제가 고려되었다면 위에서 언급한 솔루션 외에 다른 솔루션을 선택해서 추진할 수 있습니다. 데이블은 불과 2년전까지 AWS Redshift를 주로 사용했고 일부 ETL 로직에서 Spark을 사용하고 있었습니다.


- 새로운 기술 도입 또는 버전 업데이트에 적극적입니다. 2023년부터 Iceberg를 도입하여 다양한 데이터 셋에 Iceberg 를 활용하고 있습니다. 2022년까지 python 2.7 위주로 사용하고 있었지만 python 3.9로 넘어가서 지금은 3.11을 사용합니다. Airflow는 2.0에서 시작해서 2.2.4을 사용하다가 지금은 2.7.3을 사용합니다.


- 국내외 주요 뉴스 매체에서 발생하는 광고 로그 뿐만 아니라 모바일 앱에서 발생하는 광고 로그에서 AI 모델의 인풋으로 사용할 Feature를 생성하는 작업을 하고 있습니다. Feature 생성 과정은 AI팀과의 협업이 필수적입니다. 데이블 AI팀은 딥러닝에 기반한 광고 서빙 모델을 개발하고 있으며, 모델의 성능이 곧 광고 운영의 성과로 나타납니다. 이러한 모델의 학습 및 실시간 광고 서빙에 사용할 기반 데이터 셋을 안정적으로 공급하는 역할을 맡고 있습니다.


[채용 프로세스]


서류전형 - 온라인 코딩테스트 - 기술면접(라이브 코딩 테스트 포함) - 최종면접


담당업무

- 콘텐츠 추천, 광고 로그 ETL 파이프라인 개발 및 관리

- 웹 광고, 모바일 앱 광고를 위한 AI Feature 생성 파이프라인 개발 및 관리

- BI 데이터 서빙, 정산

- 부정 광고 클릭 모니터링 및 필터링

- 데이터 수집 서버 또는 클라이언트 프로그램 제작

- 데이터 기반 서비스 어플리케이션 개발과 관련된 사내 프로젝트 참여


스킬

ㆍJAVA, Python, Scala, Spark, SQL, Hive, Trino, AWS Athena


자격요건

컴퓨터 공학 베이스가 있는 분

- SQL 작성이 가능한 분
- Python, Scala, Java 중 하나 이상의 언어에 익숙하신 분
- 문제를 스스로 정의하고 해결할 수 있으신 분
- Spark 또는 SQL 기반 분산 처리 시스템 사용을 해보신 분 (빅데이터 처리 수업, 스터디 그룹 활동 등)


우대사항

로그, 비정형 데이터 전처리 경험이 있으신 분

- 데이터 파이프라인 시스템 설계 경험이 있으신 분
- Hadoop/Spark 또는 Hive/Trino SQL 기반으로 대용량 데이터 분산 처리 경험이 있으신 분
- Airflow 사용 경험이 있으신 분
- 통계에 대한 이해도가 있으신 분


혜택 및 복지 

[원하는 곳에서 일하세요]

- 매주 목요일 원격근무

- 연 최대 10일 추가 선택적 원격근무

- 원하면 해외 오피스에서 한 달간 원격근무(대만, 베트남, 홍콩 등)


[원하는 일정으로 일하세요]

- 하루 8시간 유연근무제

- 휴가는 1시간 단위로, 별도의 승인 없이 자유롭게 

- 생일 당일 반차 휴가

 

[전문가가 되어 봅시다]

- 사내 개발역량 세미나/스터디 및 외부 컨퍼런스/교육 지원

- 최신 사양의 장비 제공

 

[워라벨을 지켜드립니다]

- 3년 이상 근속 시 5일간의 리프레시 휴가 부여 (3년 이후 부터는 2년마다)

- 점심 식사 비용 제공(이지웰 복지포인트)
- 오피스 출근 시 조식 제공, 30분 야근 시 저녁 식사 비용 제공 

- 휴게실(안마의자 등) 완비

- 격년 1회 건강검진 및 검진휴가(반차) 제공


[추가적인 기업문화]

- 수평적으로 의사소통을 하고, 사내 호칭은 “님"으로 통일합니다.

- 회식은 참석하고 싶은 사람만, 야근은 되도록 지양하는 문화입니다.


전형절차

ㆍ서류전형 > 1차면접 > 임원면접 > 최종합격

ㆍ면접일정은 추후 통보됩니다.


유의사항

ㆍ허위사실이 발견될 경우 채용이 취소될 수 있습니다.