2014-01-31 07:48:00 +11:00
# encoding: utf-8
from __future__ import unicode_literals
import re
from . common import InfoExtractor
2015-05-10 05:03:26 +10:00
from . . compat import compat_urlparse
2014-02-11 01:07:41 +11:00
from . . utils import (
2015-05-10 05:03:26 +10:00
determine_ext ,
2014-02-11 01:07:41 +11:00
int_or_none ,
2015-06-18 00:28:47 +10:00
remove_end ,
2014-03-01 02:52:06 +11:00
unified_strdate ,
ExtractorError ,
2014-02-11 01:07:41 +11:00
)
2014-01-31 07:48:00 +11:00
class LifeNewsIE ( InfoExtractor ) :
IE_NAME = ' lifenews '
IE_DESC = ' LIFE | NEWS '
2015-05-10 04:26:42 +10:00
_VALID_URL = r ' http://lifenews \ .ru/(?:mobile/)?(?P<section>news|video)/(?P<id> \ d+) '
2014-02-11 01:07:41 +11:00
2015-05-04 03:24:19 +10:00
_TESTS = [ {
2014-01-31 07:48:00 +11:00
' url ' : ' http://lifenews.ru/news/126342 ' ,
' md5 ' : ' e1b50a5c5fb98a6a544250f2e0db570a ' ,
' info_dict ' : {
2014-02-11 01:07:41 +11:00
' id ' : ' 126342 ' ,
' ext ' : ' mp4 ' ,
2014-02-01 05:10:15 +11:00
' title ' : ' МВД разыскивает мужчин, оставивших в IKEA сумку с автоматом ' ,
2014-01-31 07:48:00 +11:00
' description ' : ' Камеры наблюдения гипермаркета зафиксировали троих мужчин, спрятавших оружейный арсенал в камере хранения. ' ,
2014-06-20 00:34:48 +10:00
' thumbnail ' : ' re:http://.* \ .jpg ' ,
2014-01-31 07:48:00 +11:00
' upload_date ' : ' 20140130 ' ,
}
2015-05-04 03:24:19 +10:00
} , {
# video in <iframe>
' url ' : ' http://lifenews.ru/news/152125 ' ,
' md5 ' : ' 77d19a6f0886cd76bdbf44b4d971a273 ' ,
' info_dict ' : {
' id ' : ' 152125 ' ,
' ext ' : ' mp4 ' ,
' title ' : ' В Сети появилось видео захвата «Правым сектором» колхозных полей ' ,
' description ' : ' Жители двух поселков Днепропетровской области не простили радикалам угрозу лишения плодородных земель и пошли в лобовую. ' ,
' upload_date ' : ' 20150402 ' ,
}
2015-05-06 01:39:54 +10:00
} , {
' url ' : ' http://lifenews.ru/news/153461 ' ,
' md5 ' : ' 9b6ef8bc0ffa25aebc8bdb40d89ab795 ' ,
' info_dict ' : {
' id ' : ' 153461 ' ,
' ext ' : ' mp4 ' ,
' title ' : ' В Москве спасли потерявшегося медвежонка, который спрятался на дереве' ,
' description ' : ' Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока е г о не нашла соседская собака. ' ,
' upload_date ' : ' 20150505 ' ,
}
2015-05-10 04:27:49 +10:00
} , {
' url ' : ' http://lifenews.ru/video/13035 ' ,
' only_matching ' : True ,
2015-05-04 03:24:19 +10:00
} ]
2014-01-31 07:48:00 +11:00
def _real_extract ( self , url ) :
mobj = re . match ( self . _VALID_URL , url )
video_id = mobj . group ( ' id ' )
2015-05-10 04:26:42 +10:00
section = mobj . group ( ' section ' )
2014-01-31 07:48:00 +11:00
2015-05-10 04:26:42 +10:00
webpage = self . _download_webpage (
' http://lifenews.ru/ %s / %s ' % ( section , video_id ) ,
video_id , ' Downloading page ' )
2014-01-31 07:48:00 +11:00
2014-03-01 02:52:06 +11:00
videos = re . findall ( r ' <video.*?poster= " (?P<poster>[^ " ]+) " .*?src= " (?P<video>[^ " ]+) " .*?></video> ' , webpage )
2015-05-04 03:24:19 +10:00
iframe_link = self . _html_search_regex (
2015-05-10 04:26:42 +10:00
' <iframe[^>]+src=[ " \' ]([^ " \' ]+)[ " \' ] ' , webpage , ' iframe link ' , default = None )
2015-05-04 03:24:19 +10:00
if not videos and not iframe_link :
2014-03-01 02:52:06 +11:00
raise ExtractorError ( ' No media links available for %s ' % video_id )
2014-01-31 07:48:00 +11:00
2015-06-18 00:28:47 +10:00
title = remove_end (
self . _og_search_title ( webpage ) ,
' - Первый по срочным новостям — LIFE | NEWS ' )
2014-01-31 07:48:00 +11:00
description = self . _og_search_description ( webpage )
view_count = self . _html_search_regex (
2015-05-04 03:11:23 +10:00
r ' <div class= \' views \' > \ s*( \ d+) \ s*</div> ' , webpage , ' view count ' , fatal = False )
2014-01-31 07:48:00 +11:00
comment_count = self . _html_search_regex (
2015-06-18 00:27:38 +10:00
r ' = \' commentCount \' [^>]*> \ s*( \ d+) \ s*< ' ,
webpage , ' comment count ' , fatal = False )
2014-01-31 07:48:00 +11:00
upload_date = self . _html_search_regex (
2015-06-18 00:27:38 +10:00
r ' <time[^>]*datetime= \' ([^ \' ]+) \' ' , webpage , ' upload date ' , fatal = False )
2014-02-11 01:07:41 +11:00
if upload_date is not None :
upload_date = unified_strdate ( upload_date )
2014-01-31 07:48:00 +11:00
2015-05-04 03:24:19 +10:00
common_info = {
' description ' : description ,
' view_count ' : int_or_none ( view_count ) ,
' comment_count ' : int_or_none ( comment_count ) ,
' upload_date ' : upload_date ,
}
2014-03-01 02:52:06 +11:00
def make_entry ( video_id , media , video_number = None ) :
2015-05-04 03:24:19 +10:00
cur_info = dict ( common_info )
cur_info . update ( {
2014-03-01 02:52:06 +11:00
' id ' : video_id ,
' url ' : media [ 1 ] ,
' thumbnail ' : media [ 0 ] ,
' title ' : title if video_number is None else ' %s -video %s ' % ( title , video_number ) ,
2015-05-04 03:24:19 +10:00
} )
return cur_info
if iframe_link :
2015-05-06 01:49:36 +10:00
iframe_link = self . _proto_relative_url ( iframe_link , ' http: ' )
2015-05-04 03:24:19 +10:00
cur_info = dict ( common_info )
cur_info . update ( {
' _type ' : ' url_transparent ' ,
' id ' : video_id ,
' title ' : title ,
' url ' : iframe_link ,
} )
return cur_info
2014-03-01 02:52:06 +11:00
if len ( videos ) == 1 :
return make_entry ( video_id , videos [ 0 ] )
else :
2014-11-24 07:23:05 +11:00
return [ make_entry ( video_id , media , video_number + 1 ) for video_number , media in enumerate ( videos ) ]
2015-05-10 05:03:26 +10:00
class LifeEmbedIE ( InfoExtractor ) :
IE_NAME = ' life:embed '
_VALID_URL = r ' http://embed \ .life \ .ru/embed/(?P<id>[ \ da-f] {32} ) '
_TEST = {
' url ' : ' http://embed.life.ru/embed/e50c2dec2867350528e2574c899b8291 ' ,
' md5 ' : ' b889715c9e49cb1981281d0e5458fbbe ' ,
' info_dict ' : {
' id ' : ' e50c2dec2867350528e2574c899b8291 ' ,
' ext ' : ' mp4 ' ,
' title ' : ' e50c2dec2867350528e2574c899b8291 ' ,
' thumbnail ' : ' re:http://.* \ .jpg ' ,
}
}
def _real_extract ( self , url ) :
video_id = self . _match_id ( url )
webpage = self . _download_webpage ( url , video_id )
formats = [ ]
for video_url in re . findall ( r ' " file " \ s*: \ s* " ([^ " ]+) ' , webpage ) :
video_url = compat_urlparse . urljoin ( url , video_url )
ext = determine_ext ( video_url )
if ext == ' m3u8 ' :
formats . extend ( self . _extract_m3u8_formats (
video_url , video_id , ' mp4 ' , m3u8_id = ' m3u8 ' ) )
else :
formats . append ( {
' url ' : video_url ,
' format_id ' : ext ,
' preference ' : 1 ,
} )
2015-05-10 12:54:50 +10:00
self . _sort_formats ( formats )
2015-05-10 05:03:26 +10:00
thumbnail = self . _search_regex (
r ' " image " \ s*: \ s* " ([^ " ]+) ' , webpage , ' thumbnail ' , default = None )
return {
' id ' : video_id ,
' title ' : video_id ,
' thumbnail ' : thumbnail ,
' formats ' : formats ,
}