第258章上菜的路上还能边走边烹饪

    “宿胖的技术路线，其实是这样的：他宣传PPT里提到的‘人工智能识别视频内容，并根据用户喜好推送’，实际上完全没有ＷwＷ..lā

    杰克，不知道你注意到了没有——为什么快蹄上的视频，都会在首页上打上这么多的字呢？比如这个‘教你如何扎丸子头’，或者那个‘牙套妹，奈何美色’、‘太木人道~’。从审美的角度来说，你不觉得短视频打这么多字很丑么？”

    冯见雄侃侃而谈地诱导着，力争让杰克马自己去发现。

    “对啊，为什么，很丑。”杰克马果然顺着思路往下说。

    冯见雄微微一笑：“因为其实宿胖跟张一鸣一样，只会识别视频的标题和文字说明。他的人工智能是识别不出视频图像的故事内容的。他只是靠读懂了文字，然后觉得这个视频是讲什么的，就把它推荐给其他‘曾经喜欢看同类文字标题或描述内容’的用户。

    所以，宿胖的真相，只是跟风了张一鸣的技术路线，然后伪装成可以智能推送视频而已。目前地球上，还没有一种人工智能可以看懂视频的故事性。至少四年内不可能。”

    “原来是这样……确实，目前世界上图像识别领域最强的就是谷歌，其次就是我们阿狸系，我说他们怎么让机器读懂视频内容的呢。”

    这句话不是杰克马说的，而是老曾为了补救，拍的马屁。

    他似乎已经忘了，就在不久前，他还信誓旦旦说“宿胖也能做到，所以你冯见雄不配要高价”呢。

    不过，没人会在意这些话就是了。

    杰克马也不傻，他知道下属是为了帮他砍价。

    没有一个老板会处罚一个为了帮自己砍价而说谎的下属的。

    冯见雄也是顶级人精，当下呵呵一笑，穷寇莫追。

    他也跟着一起当头棒喝后给甜枣：“老曾总算想明白了——老马，你就这么想好了，谷歌之所以图像内容识别做得好，是因为他们要搞图片智能搜索的引擎么。

    你们阿狸之所以这么投入，是因为你们要让女人去线下服装店拍了照、然后上淘宝找同款。

    目前这些技术的商业变现渠道还不多。所以只有你们和谷歌这样砸钱。连你都连根毛的成果还没砸出来，宿胖这点小身板能做出个屁啊。科研是真金白银烧钱的，又不是过家家。”

    这个马屁非常精妙，关键是言之有物，让杰克马听得很爽。

    毕竟冯见雄夸赞的是他的战略眼光。

    对于一个逼王来说，一般的马屁是听不进去的。

    但如果有人能从高科技发展趋势的角度，花式论证出他战略决策的英明果决、高瞻远瞩，那杰克马简直会爽到毛孔通透。

    可惜世人再无如此口才和犀利眼光。

    “嗯……似乎不无道理”杰克马沉吟数息，旋即想到另一个问题，“小冯，那你又准备如何解决‘目前的人工智能还看不懂视频’这个问题呢？如果你没有独门秘诀，那也只不过是宿胖做不到、你也做不到而已。”

    “我现在也做不到，但我可以在两三年内做到，而且确保比他们快至少一到两年。”冯见雄智珠在握地说。

    “那描述一下你的技术蓝图。”杰克马当仁不让地问。

    冯见雄也不客气：“可以，不过能让他们先回避一下么？我的计划，不是纯粹靠技术手段来解决的。而是技术不够、商业和运营来凑。所以，涉及到很多容易被‘借鉴’的创意。我必须确保自己的商业机密。”

    杰克马一听，给老曾和蔡重信都使了个颜色，让他们先出去鸡尾酒。

    蔡重信和老曾对视一眼，一声不吭带着人走了。

    冯见雄微微一笑：“其实，我的办法，说穿了也简单——据我所知，目前谷歌公司进行的‘智能看懂视频’项目，其项目预期期限，需要5年，才能攻克全部技术难点。

    但是，这5年不是‘行百里而半九十’的，而是按照一个个技术阶段分别攻克的。他们要实现的最终目标，是‘通过让人工智能算法，识别出一个视频中，哪几帧画面才是决定全篇调性、故事主题的‘主要内容/中心思想’。

    然后，再通过精读识别这些帧的画面上，有多少人物、什么动作、发生了什么故事’，最后总结出‘这视频大致是在说讲怎么样一个故事’。”

    冯见雄说到这里的时候，稍微停顿了一下。也观察了杰克马的接受度，又通俗解释了几个点。

    他的这番理论，如果都用术语表述，可能比较晦涩。

    但是，举个小学生都懂的例子，横向对比一下，就通俗了——谷歌科学家们，在调教“深度学习”型人工智能、理解人类语言文字/图像信息的时候，其实有点儿像老师给小学生上语文课。

    相信小学生都记得，当年语文课的时候，老师会不厌其烦问你：这篇课文的主要内容是什么？中心思想是什么？线索是什么？

    很多小学生当初肯定是内心有一万头羊驼奔腾而过：尼玛！老子知道这个课文说了啥，看懂不就好了？你问个屁的“主要内容”、“中心思想”啊！考试答错了还扣分！

    但你别说，调教机器人学语文的时候，还真得严格按照“主要内容”、“中心思想”这么一步步总结下来。很多人类觉得可以靠本能绕过去、或者省略掉的步骤，机器是绕不过去的。

    杰克马很快就懂了，示意他继续：“那么，然后呢？”

    冯见雄继续解说：“既然知道谷歌的技术路线了，那么我们就可以推断：在实现最终极的目标之前，谷歌需要先解决‘读懂一张图里发生的故事’的问题，然后再考虑‘如何选出一个视频中最能体现中心思想的那几帧’。

    那么，距离‘读懂一张图里的故事’这一步，谷歌目前差多远呢？我认为大致是三年——目前谷歌已经可以做到识别图片里是不是有一张人脸，但还没法识别这个人到底是谁、和另一张照片里的人是不是同一个。

    谷歌还能识别出‘图里有没有一只猫’，但识别不出‘这只猫和刚才那只猫是否是同一只’。而大约三年之后，这些都不是问题。谷歌能做到‘从识别出图里有只猫’，到‘识别这一帧在讲什么故事’。

    我们如果紧跟谷歌的步伐，结合阿狸系的图像识别研发，就算留一年余量好了。那么20年也能搞出‘让机器读懂一帧’的商用技术。当然，这里面肯定需要与阿狸系图像识别团队的深度合作，也需要后续的投资。

    而对我来说，只要做到了‘识别出一帧’，我就能‘大致读懂整个故事’，从而把谷歌需要用纯技术手段解决的问题，用运营手段给暂时绕过去。”

第258章 上菜的路上还能边走边烹饪

第258章上菜的路上还能边走边烹饪